CN117115469B - 图像特征提取网络的训练方法、装置、存储介质及设备 - Google Patents
图像特征提取网络的训练方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN117115469B CN117115469B CN202311375904.8A CN202311375904A CN117115469B CN 117115469 B CN117115469 B CN 117115469B CN 202311375904 A CN202311375904 A CN 202311375904A CN 117115469 B CN117115469 B CN 117115469B
- Authority
- CN
- China
- Prior art keywords
- image
- feature extraction
- sample
- loss
- extraction network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 429
- 238000012549 training Methods 0.000 title claims abstract description 199
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000003860 storage Methods 0.000 title claims description 23
- 238000004821 distillation Methods 0.000 claims abstract description 78
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 abstract description 26
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 20
- 210000003811 finger Anatomy 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000013140 knowledge distillation Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 210000004932 little finger Anatomy 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种图像特征提取网络的训练方法,应用于云技术、人工智能、智慧交通、辅助驾驶等场景,包括:对图像特征提取网络进行预训练得到第一图像特征提取网络;固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练得到第二图像特征提取网络;第一蒸馏损失由第一特征分布损失和第一分类损失确定,固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练得到目标特征提取网络;第二蒸馏损失由第二特征分布损失和第二分类损失确定,本申请通过先由第一图像特征提取网络训练第一预设网络,再由第二图像特征提取网络训练第一图像特征提取网络的分段训练,提升目标特征提取网络的图像特征提取性能。
Description
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种图像特征提取网络的训练方法、装置、存储介质及计算机设备。
背景技术
深度神经网络模型在计算机视觉等众多人工智能领域中应用广泛。但是,大多数模型在计算上过于昂贵,无法在移动端或嵌入式设备上运行。因此,现有技术提出对模型进行压缩,知识蒸馏是模型压缩中重要的技术之一。
知识蒸馏的核心思想是通过引导轻量化的小模型“模仿”性能更好、结构更复杂的大模型,也即利用大模型学习的知识指导小模型训练,使得小模型具有与大模型相当的性能,目前,知识蒸馏也常用于计算机视觉领域。
例如,在图像特征提取的应用场景中,通常需要基于知识蒸馏技术,使用具有图像特征提取能力的大模型指导能在终端设备运行的小模型进行训练,然而,这种方式训练出得到的小模型对图像特征的提取性能较差。
发明内容
本申请实施例提供一种图像特征提取网络的训练方法、装置、存储介质以及计算机设备,以解决相关技术中图像特征提取网络对图像特征的提取性能较差的问题。
一方面,本申请实施例提供一种图像特征提取网络的训练方法,该方法包括:对图像特征提取网络进行预训练,得到第一图像特征提取网络;固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络;第一图像特征提取网络的网络规模小于第一预设网络的网络规模;第一蒸馏损失是根据第一特征分布损失和第一分类损失确定的,第一特征分布损失是基于第一图像特征提取网络对第一样本图像提取的第一样本特征和第一预设网络对第一样本图像提取的第二样本特征确定的;第一分类损失是根据第一样本图像对应的标签和基于第二样本特征进行分类所得到的分类结果确定的;固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,得到目标特征提取网络;第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,第二特征分布损失是基于第二图像特征提取网络对第二样本图像提取的第三样本特征和第一图像特征提取网络对第二样本图像提取的第四样本特征确定的;第二分类损失是根据对第三样本特征进行分类得到的分类结果和对第四样本特征进行分类得到的分类结果确定的。
本申请可以通过预训练得到第一图像特征提取网络,进而先固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络,再固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,得到目标特征提取网络。通过分阶段训练的方式,由作为学生模型的第一图像特征提取网络先蒸馏作为教师模型的第一预设网络,以得到高性能的第二图像特征提取网络,由于第一蒸馏损失是根据第一特征分布损失和第一分类损失,该第一特征分布损失可以使第二图像特征提取网络的特征空间与第一图像特征提取网络的特征空间相近,该第一分类损失可以约束所提取特征的准确性,由此保证训练得到的第二图像特征网络一方面特征空间与第一图像特征提取网络的特征空间相近,还可以保证第二图像特征提取网络的特征提取准确性;进而由作为教师模型的第二图像特征提取网络再蒸馏作为学生模型的第一图像特征提取网络,由于第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,第二特征分布损失可以使第一图像特征提取网络的特征空间进一步向第二图像特征提取网络的特征空间靠拢,并且,基于第二分布损失可以约束第二图像特征提取网络的特征提取准确性。如此,可以缩小教师模型与学生模型之间的特征分布差异,并确保训练得到的目标特征提取网络具有稀疏性和特征提取的准确性,从而有效提高目标特征提取网络的图像特征提取性能,目标特征提取网络能够准确地提取图像特征。
另一方面,本申请实施例提供一种图像特征提取方法,该方法包括:获取目标图像;将目标图像输入至目标特征提取网络进行特征提取,得到目标图像对应的图像特征;目标特征提取网络为基于上述实施例提供的图像特征提取网络的训练方法得到的。
可选地,将目标图像输入至目标特征提取网络进行特征提取,得到目标图像对应的图像特征之后,方法还包括:基于目标图像对应的图像特征进行身份匹配,确定目标图像对应的身份识别结果。
可选地,基于目标图像对应的图像特征进行身份匹配,确定目标图像对应的身份识别结果,包括:将目标图像对应的图像特征与特征库中各注册图像特征进行相似度计算;基于所计算到的相似度,在特征库中确定与目标图像对应的图像特征相似度最高的目标注册图像特征;将与目标注册图像特征关联的身份信息,确定为目标图像对应的身份识别结果。
可选地,基于目标图像对应的图像特征,确定目标图像对应的身份识别结果之后,方法包括:基于目标图像对应的身份识别结果进行支付。
可选地,目标图像可以为从手掌图像中提取的掌纹图像,获取目标图像,包括:获取待识别的手掌图像;基于检测网络对手掌图像进行关键点检测,得到手掌图像中的关键点;基于关键点,从手掌图像中截取掌纹图像。
另一方面,本申请实施例还提供一种图像特征提取网络的训练装置,该装置包括:网络获取模块,用于对图像特征提取网络进行预训练,得到第一图像特征提取网络;第一训练模块,用于固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络;第一图像特征提取网络的网络规模小于第一预设网络的网络规模;第一蒸馏损失是根据第一特征分布损失和第一分类损失确定的,第一特征分布损失是基于第一图像特征提取网络对第一样本图像提取的第一样本特征和第一预设网络对第一样本图像提取的第二样本特征确定的;第一分类损失是根据第一样本图像对应的标签和基于第二样本特征进行分类所得到的分类结果确定的;第二训练模块,用于固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,得到目标特征提取网络;第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,第二特征分布损失是基于第二图像特征提取网络对第二样本图像提取的第三样本特征和第一图像特征提取网络对第二样本图像提取的第四样本特征确定的;第二分类损失是根据对第三样本特征进行分类得到的分类结果和对第四样本特征进行分类得到的分类结果确定的。
可选地,第一训练模块包括:第一提取单元,用于将训练集中的第一样本图像输入至第一图像特征提取网络进行特征提取,得到第一样本特征;第二提取单元,用于将第一样本图像输入至第一预设网络进行特征提取,得到第二样本特征;第一损失确定单元,用于基于第一样本特征和第二样本特征,确定第一特征分布损失;第二损失确定单元,用于基于第一样本图像对应的标签和对第二样本特征进行分类得到的第一样本图像的分类结果,确定第一分类损失;第一蒸馏损失确定单元,用于基于第一特征分布损失和第一分类损失进行加权计算,得到第一蒸馏损失;第一训练单元,用于固定第一预设网络的权重参数,基于第一蒸馏损失,迭代更新第一预设网络的权重参数,直至达到第一训练结束条件,得到第二图像特征提取网络。
可选地,第二损失确定单元可以具体用于:将第二样本特征输入至分类层进行分类,得到第一样本图像对应的分类结果;基于第一样本图像对应的分类结果和第一样本图像对应的标签进行损失计算,得到第一分类损失。
可选地,第二训练模块可以包括:第三提取单元,用于将训练集中的第二样本图像输入至第二图像特征提取网络进行特征提取,得到第三样本特征;第四提取单元,用于将第二样本图像输入至第一图像特征提取网络进行特征提取,得到第四样本特征;第三损失确定单元,用于基于第三样本特征和第四样本特征,确定第二特征分布损失;第四损失确定单元,用于基于对第三样本特征进行分类得到的第二样本图像的分类结果和对第四样本特征进行分类得到的第二样本图像的分类结果,确定第二分类损失;第二蒸馏损失确定单元,用于基于第二特征分布损失和第二分类损失,确定第二蒸馏损失;第二训练单元,用于固定第二图像特征提取网络的权重参数,基于第二蒸馏损失,迭代更新第一图像特征提取网络的权重参数,直至达到第二训练结束条件,得到目标特征提取网络。
可选地,第四损失确定单元具体可以用于:对第三样本特征进行分类,得到第二样本图像对应的第一分类结果;对第四样本特征进行分类,得到第二样本图像对应的第二分类结果;基于第二样本图像对应的第一分类结果和第二样本图像对应的第二分类结果,确定第一子分类损失;基于第二样本图像对应的第二分类结果和第二样本图像对应的标签,确定第二子分类损失;基于第一子分类损失和第二子分类损失,确定第二分类损失。
可选地,预训练模块可以具体用于:将训练集中的样本图像输入至预设的图像特征提取网络进行特征提取,得到样本图像特征;基于样本图像特征进行分类得到的样本图像的分类结果;基于样本图像的分类结果和样本图像对应的图像标签,确定图像分类损失;基于图像分类损失,对图像特征提取网络的权重参数进行迭代更新,直至达到目标训练结束条件,得到第一图像特征提取网络。
可选地,第一样本图像是从第一手掌图像中提取的掌纹图像,第二样本图像是从第二手掌图像中提取的掌纹图像;基于第二样本特征进行分类所得到的分类结果是指根据第二样本特征进行身份标识分类得到的身份识别结果;对第三样本特征进行分类得到的分类结果是指根据第三样本特征进行身份标识分类得到的身份识别结果;对第四样本特征进行分类得到的分类结果是指根据第四样本特征进行身份标识分类得到的身份识别结果。
可选地,第一训练模块,还可以用于获取第一手掌图像;基于检测网络对第一手掌图像进行关键点检测,得到第一手掌图像中的关键点;基于关键点,从第一手掌图像中截取掌纹图像,作为第一样本图像。
另一方面,本申请实施例还提供一种图像特征提取装置,该装置包括:图像获取模块,用于获取目标图像;特征提取模块,用于将目标图像输入至目标特征提取网络进行特征提取,得到目标图像对应的图像特征;目标特征提取网络为基于上述实施例提供的图像特征提取网络的训练方法得到的。
可选地,该图像特征提取装置还可以包括身份识别模块,用于基于目标图像对应的图像特征进行身份匹配,确定目标图像对应的身份识别结果。
可选地,该身份识别模块可以具体用于:将目标图像对应的图像特征与特征库中各注册图像特征进行相似度计算;基于所计算到的相似度,在特征库中确定与目标图像对应的图像特征相似度最高的目标注册图像特征;将与目标注册图像特征关联的身份信息,确定为目标图像对应的身份识别结果。
可选地,该图像特征提取装置还可以包括应用模块,用于基于目标图像对应的身份识别结果进行支付。
可选地,目标图像为从手掌图像中提取的掌纹图像,图像获取模块可以具体用于:获取待识别的手掌图像;基于检测网络对手掌图像进行关键点检测,得到手掌图像中的关键点;基于关键点,从手掌图像中截取掌纹图像。
另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可读指令,其中,当所述计算机可读指令被处理器执行时,实现如上述的图像特征提取网络的训练方法或者图像特征提取方法。
另一方面,本申请实施例还提供一种计算机设备,该计算机设备包括处理器以及存储器,存储器存储有计算机可读指令,该计算机可读指令被处理器调用时,实现如上述的图像特征提取网络的训练方法或者图像特征提取方法。
另一方面,本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机可读指令,该计算机可读指令被处理器执行时,实现如上述图像特征提取网络的训练方法或者图像特征提取方法中的步骤。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种系统架构示意图。
图2示出了本申请实施例提供的一种应用场景示意图。
图3示出了本申请实施例提供的一种网络训练方法的流程示意图。
图4示出了本申请实施例提供的一种网络训练示意图。
图5示出了本申请实施例提供的一种图像特征提取方法的流程示意图。
图6示出了本申请实施例提供的一种掌纹特征提取的流程图。
图7示出了本申请实施例提供的一种掌纹识别的应用场景示意图。
图8示出了本申请实施例提供的一种图像特征提取网络的训练装置的模块框图。
图9是本申请实施例提供的一种图像特征提取装置的模块框图。
图10是本申请实施例提供的一种计算机设备的模块框图。
图11是本申请实施例提供的一种计算机可读存储介质的模块框图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
在说明书、权利要求书和上述附图所描述的一些流程中,包含了按照特定顺序出现的多个步骤,但应该清楚了解,这些步骤可以不按照其在本文中出现的顺序来执行或并行执行,步骤序号仅仅是用于区分开各个不同的步骤,序号本身不代表任何的执行顺序。此外,本文中的“第一”和“第二”等描述,是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请的具体实施方式中,涉及到的样本图像、手掌图像和掌纹图像等相关数据,当运用到本申请实施例的具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规及标准,并且在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
知识蒸馏(Knowledge Distillation,KD)是一种经典的模型压缩方法。由于大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。因此,可以利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩与加速。
通常,知识蒸馏采用教师-学生模式,将结构复杂且大的模型作为教师模型,学生模型结构较为简单,用教师模型来辅助学生模型的训练,教师模型学习能力强,可以将它学到的知识迁移给学习能力相对弱的学生模型,以此使得学生模型具有与教师模型相当的能力。目前,这种教师-学生模式的知识蒸馏技术也经常被用于针对图像进行图像特征提取的场景中。
例如,为了能在终端设备上部署图像特征提取网络,该图像特征提取网络是由大模型(教师模型)通过知识蒸馏得到的小模型(学生模型)。然而,在知识蒸馏过程中,教师模型和学生模型之间会出现特征空间差异的问题,从而导致作为学生模型的图像特征提取网络无法准确性提取图像特征,图像特征提取网络的性能较差。为了解决上述问题,发明人经过研究,提出了本申请实施例提供的图像特征提取网络的训练方法。
本申请提出的图像特征提取网络的训练方法涉及人工智能(ArtificialIntelligence, AI)技术,人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,Swin-Transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(Fine Tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术,还包括常见的人脸识别、指纹识别、掌纹识别等生物特征识别技术。
下面对本申请所涉及到的图像特征提取网络的训练方法的系统架构进行介绍。
如图1所示,本申请实施例提供的图像特征提取网络的训练方法可以应用在系统100中,该系统100可以用于模型训练。其中,数据获取设备110用于获取训练集,训练集包括多个训练样本。针对本申请实施例的图像特征提取网络的训练方法来说,每个训练样本可以包括用于训练的图像以及该图像对应的图像标签;用于训练的图像例如第一样本图像、第二样本图像以及用于对图像特征提取网络进行预训练的样本图像。数据获取设备110在获取到训练数据之后,可将该训练数据存入数据库120,训练设备130可基于数据库120中维护的训练集训练得到目标模型101。
具体地,训练设备130可以基于训练集对第一预设网络进行训练,直至该第一预设网络满足预设的训练结束条件,得到训练后的目标模型101,也即,本申请的第二图像特征提取网络。或者,训练设备130也可以基于训练集对第一图像特征提取网络进行训练,直至该第一图像特征提取网络满足预设的训练结束条件,得到训练后的目标模型101,也即,本申请的目标特征提取网络。其中,训练结束条件可以为:目标损失函数的损失值小于预设值、目标损失函数的损失值不再变化、或者训练次数达到预设次数等。本申请中的目标模型101可以为深度神经网络(Deep Neural Network,DNN)等,在此不做限定。
在实际的应用场景中,数据库120中维护的训练数据不一定都来自于数据获取设备110,也可以从其他设备接收得到,例如,执行设备140也可以作为数据获取端,将获取的数据作为新的训练数据,并存入数据库120。此外,训练设备130也不一定完全基于数据库120维护的训练数据对预设的神经网络进行训练,也有可能基于从云端或者其他设备获取的训练数据对预设的神经网络进行训练,例如,执行设备140为客户端所在的终端时,可以将采集的不同对象的图像作为训练数据,上述描述不应该作为对本申请实施例的限定。
上述根据训练设备130训练得到的目标模型101可以应用于不同的系统或设备,如应用于图1所示的执行设备140。训练设备130和执行设备140可以为服务器或者终端等,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是手机终端、平板电脑、笔记本电脑、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、支付终端、门禁终端(例如智能锁、公共交通工具站点处布设的闸机等)、车载终端、智能锁、智能家居设备等,在此不做限定。
在执行设备140的处理模块141执行计算等相关的处理过程中,执行设备140可调用数据存储系统150中的数据、程序等以用于相应的计算处理,并将计算处理得到的处理结果等数据和指令存入数据存储系统150中。训练设备130可以针对不同的目标或不同的任务,基于不同的训练数据生成相应的目标模型101,该相应的目标模型101即可以用于完成相应的图像特征提取网络的训练任务和利用该图像特征提取网络进行的图像特征提取任务。
值得注意的是,图1仅是本申请实施例提供的一种图像特征提取网络的训练的系统架构示意图,本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,图1中的执行设备140还可以包括通信模块、图像采集模块等。具体可以根据实际的应用场景设置所需的模块,在此不做限定。
如图2所示,本申请实施例提供的图像特征提取网络的训练方法还可以应用在系统200中。示例性地,系统200可以包括服务端210、第一终端220以及第二终端240。其中,服务端210可以根据具体的使用场景,基于不同类型的训练集按需训练出对应的目标特征提取网络。例如,针对掌纹识别场景,可以训练用于掌纹图像特征提取的第一特征提取网络。针对人脸识别场景,可以训练用于人脸图像特征提取的第二特征提取网络。
具体地,第一终端220可以通过网络从服务端210下载,并部署第一特征提取网络,第一终端220的摄像头221可以获取人脸图像,进而第二特征提取网络可以提取该人脸图像中的面部特征。第二终端240可以通过网络从服务端210下载,并部署第一特征提取网络,第二终端240的身份识别客户端可以获取掌纹图像,进而第一特征提取网络可以提取该掌纹图像中的掌纹特征,用于进行身份识别。
需要说明的是,图2仅是本申请实施例提供的一种应用场景示意图。本申请实施例描述的应用场景和系统框架仅是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,第一终端220可以泛指多个终端中的一个,第二终端240可以泛指多个终端中的一个,本实施例仅以第一终端220和第二终端240来举例说明。本领域普通技术人员可知,随着系统架构的演变,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
请参阅图3,图3示出了本申请一个实施例提供的图像特征提取网络的训练方法的流程示意图。在本实施例中,该图像特征提取网络的训练方法可以由服务端执行,该服务端至少具有存储、计算和通信的功能。并将针对图3所示的流程结合图4所示网络训练示意图进行详细地阐述,如图3所示,所述图像特征提取网络的训练方法具体可以包括以下步骤:
步骤S110:对图像特征提取网络进行预训练,得到第一图像特征提取网络。
考虑到现有技术的知识蒸馏方法仅基于对学生模型的参数调整来实现教师模型的知识迁移,这种方式无法避免教师模型和学生模型之间出现特征空间差异的问题,进而导致作为学生模型的图像特征提取网络无法准确性提取图像特征。为此,本申请提出在对学生模型进行预训练,使学生模型具有一定的图像特征提取准确性的基础上,再进行后续的两阶段训练,即由学生模型训练教师模型(第一阶段网络训练),再由训练后的教师模型训练学生模型(第二阶段网路训练)。
其中,预训练得到的第一图像特征提取网络作为后续两个阶段中第一阶段网络训练中的学生模型。第一图像特征提取网络是对图像特征提取网络进行预训练得到的。该图像特征提取网络可以为能够运行在终端设备上的深度神经网络,例如,通过卷积神经网络、全连接神经网络、循环神经网络构建的,或者,图像特征提取网络还可以是ShuffleNet V2或者MobileNet V1-V3等,在此不做限定。在本申请中,图像特征提取网络可以是用于对人脸图像进行特征提取、对掌纹图像进行特征提取、对眼部图像进行特征提取、以及其他能够进行图像特征提取的模型。
作为一种实施方式,服务端可以将训练集中的样本图像输入至预设的图像特征提取网络进行特征提取,得到样本图像特征,并基于样本图像特征进行分类得到的样本图像的分类结果,进一步地,服务端可以基于样本图像的分类结果和样本图像对应的图像标签,确定图像分类损失,并基于图像分类损失对图像特征提取网络的权重参数进行迭代更新,直至达到目标训练结束条件,得到第一图像特征提取网络。
例如,服务端可以将训练集中的掌纹图像(也即,样本图像)输入至以MobileFaceNet作为主体(Backbone)的图像特征提取网络中进行特征提取,得到掌纹图像特征,并基于全连接层对掌纹图像特征进行分类得到的该掌纹图像的分类结果(例如,该分类结果可以是分类确定的掌纹图像所属对象的对象标识),进而计算出分类结果和掌纹图像对应的图像标签(如,该图像标签可以用于指示标注的该掌纹图像实际所属对象的对象标识的One-Hot标签)的图像分类损失,并基于图像分类损失/>对图像特征提取网络的权重参数进行迭代更新,直至达到目标训练结束条件,得到第一图像特征提取网络。
可以理解的是,在对图像特征提取网络进行预训练过程中,样本图像以及样本图像对应的图像标签是与图像特征提取网络所用于的图像分类任务相关的,例如,若图像特征提取网络用于人脸识别分类任务,样本图像可以是包括人脸的图像,样本图像对应的图像标签用于指示样本图像所属对象的对象标识;若图像特征提取网络用于商品分类任务,样本图像可以是包括商品的图像,样本图像对应的图像标签用于指示该样本图像中所包括的商品。当然,以上所列举的图像分类任务仅仅是示例性举例,不能认为是对本申请使用范围的限制。
步骤S120:固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络。
其中,第一图像特征提取网络的网络规模小于第一预设网络的网络规模,该网络规模的表示可以包括网络参数的数量表示(如,网络的权重参数的数量)、网络对应的算法的空间复杂度或者时间复杂度等;第一蒸馏损失是根据第一特征分布损失和第一分类损失确定的,第一特征分布损失是基于第一图像特征提取网络对第一样本图像提取的第一样本特征和第一预设网络对第一样本图像提取的第二样本特征确定的;第一分类损失是根据第一样本图像对应的标签和基于第二样本特征进行分类所得到的分类结果确定的。示例性地,第一样本图像可以是从第一手掌图像中提取的掌纹图像,例如,获取第一手掌图像,基于检测网络对第一手掌图像进行关键点检测,得到第一手掌图像中的关键点,基于关键点,从第一手掌图像中截取掌纹图像,作为第一样本图像。基于第二样本特征进行分类所得到的分类结果是指根据第二样本特征进行身份标识分类得到的身份识别结果。
在步骤S120中,第一图像特征提取网络的网络规模小于第一预设网络的网络规模,将第一预设网络作为教师模型,将第一图像特征提取网络作为学生模型,通过预训练后的学生模型来指导作为教师模型的第一预设网络进行训练。值得一提的是,在本申请中,第一预设网络也是用于进行图像特征提取的神经网络。该第一预设网络可以是通过卷积神经网络、全连接网络、循环神经网络等构建的,在此不进行具体限定。
第一特征分布损失反映了第一图像特征提取网络针对第一样本图像所提取的特征与第一预设网络针对第一样本图像所提取的特征之间的特征分布差异。第一分类损失用于反映分类准确性,由于图像特征提取的准确性直接影响分类准确性,因此,第一分类损失也可以反映第一预设网络提取图像特征的准确性。在本申请中,根据第一特征分布损失和第一分类损失来确定第一蒸馏损失,进而基于第一蒸馏损失来训练第一预设网络,一方面,可以减少第一预设网络所提取的图像特征与第一图像特征提取网络所提取的图像特征之间的特征分布差异,可以使第一预设网络学习第一图像特征提取网络的特征空间,或者说学习第一图像特征提取网络的特征空间中的特征分布,而由于第一图像特征提取网络是进行预训练得到的,该第一图像特征提取网络的图像特征提取准确性具有一定的保证,即第一图像特征提取网络的特征空间是较准确的,这样,可以保证第一预设网络所学习到的特征空间也是较准确的;另一方面,由于第一分类损失可以反映第一预设网络提取图像特征的准确性,因此,可以基于第一分类损失监督第一预设网络的训练,可以提升第一预设网络的特征提取准确性。
在一些实施例中,步骤S120可以包括如下步骤A1~步骤A6:
步骤A1:将训练集中的第一样本图像输入至第一图像特征提取网络进行特征提取,得到第一样本特征。
其中,训练集中包括采样的/>张样本图像和每个样本图像对应的图像标签,例如,第/>张样本图像/>有对应的图像标签/>,其中,/>。样本图像的图像类型可以根据目标特征提取网络的具体使用场景进行指定。例如,若目标特征提取网络用于进行掌纹图像特征的提取,则样本图像可以指定为掌纹图像。在本申请中,为便于区分,将用于训练第一预设网络的样本图像称为第一样本图像。
示例性地,服务端可以将第一样本图像输入至第一图像特征提取网络进行图像特征提取,得到第一样本特征/>,该过程可用如下的公式(1)表示:(1)
其中,表示作为学生模型的第一图像特征提取网络。/>表示一个批量(Batch)的样本图像,/>,/>为批量大小(Batch Size),。
步骤A2:将第一样本图像输入至第一预设网络进行特征提取,得到第二样本特征。
在申请实施例中,第一预设网络作为教师模型可以包括具有图像特征提取能力的单个复杂网络或者是若干网络的集合,例如,ResNet、Inception或者Xception等,在此不做限定。
示例性地,服务端可以将第一样本图像输入至第一预设网络进行图像特征提取,得到第二样本特征/>,该过程可用如下的公式(2)表示:/>(2)
其中,表示作为教师模型的第一预设网络。
步骤A3:基于第一样本特征和第二样本特征,确定第一特征分布损失。
作为一种实施方式,服务端可以根据第一样本特征和第二样本特征之间的差异表示,计算出第一特征分布损失,例如,基于第一样本特征和第二样本特征之间的均方误差,作为第一特征分布损失。
如此,通过第一特征分布损失对第一预设网络训练过程中的特征分布进行约束,使得第一图像特征提取网络与第一预设网络之间的特征分布尽可能的相似,约束训练第一预设网络模型过程中的特征分布。
步骤A4:基于第一样本图像对应的标签和对第二样本特征进行分类得到的第一样本图像的分类结果,确定第一分类损失。
作为一种实施方式,服务端可以将第二样本特征输入至分类层进行分类,得到第一样本图像对应的分类结果(如,根据第二样本特征进行身份标识分类得到的身份识别结果),并基于第一样本图像对应的分类结果和第一样本图像对应的标签进行损失计算,得到第一分类损失,例如可以是进行绝对值损失计算、均方误差损失计算、交叉熵损失计算。
示例性地,服务端可以将第二样本特征输入至全连接层进行分类,也即将第二样本特征映射到不同的类别(例如,若是掌纹图像,可以将掌纹图像对应的第二样本特征映射到该掌纹图像所属对象的对象标识,也即身份识别结果),由全连接层输出第一样本图像对应的分类结果。进一步地,服务端可以基于第一样本图像的分类结果和第一样本图像对应的图像标签/>之间的差异表示,计算出第一分类损失。
例如,计算出分类结果和第一样本图像对应的图像标签/>之间的加性角度间隔损失(Additive Angular Margin Loss,Arcface Loss)作为第一分类损失/>,该过程可用如下的公式(3)和(4)表示:/>(3)/>(4)
其中,表示全连接层,/>表示损失损失函数。
步骤A5:基于第一特征分布损失和第一分类损失进行加权计算,得到第一蒸馏损失。
示例性地,服务端可以对第一特征分布损失和第一分类损失进行加权计算,得到第一蒸馏损失/>,该过程可用如下的公式(5)表示:/>(5)
其中,分别为作为第一特征分布损失和第一分类损失的加权系数,也即超参数,/>之和为1,加权系数具体可以根据实际训练的历史数据进行设置。
步骤A6:固定第一预设网络的权重参数,基于第一蒸馏损失,迭代更新第一预设网络的权重参数,直至达到第一训练结束条件,得到第二图像特征提取网络。
其中,第一训练结束条件可以包括:第一蒸馏损失小于预设值、或者训练次数达到预设次数等。可选的,可以采用优化器去优化目标损失函数,基于实验经验设置学习率(Learning Rate)、训练时的批量大小(Batch Size)训练的训练次数(Epoch)。
作为一种实施方式,在根据训练集对第一预设网络进行多个训练周期的迭代训练,其中,每个训练周期可以包括多次的迭代训练,不断对第一预设网络的权重参数进行优化,使得第一蒸馏损失越来越小,以使第一蒸馏损失小于第一阈值,此时,则表示第一预设网络已收敛,停止迭代更新第一预设网络的权重参数,结束网络训练,得到第二图像特征提取网络。
如此,通过联合第一特征分布损失和第一分类损失使得第一图像特征提取网络与第一预设网络之间的特征分布尽可能的相似,提高第一预设网络提取图像特征的准确性,从而得到图像特征提取性能更好的第二图像特征提取网络。
在一些实施例中,图像特征提取网络可以作为图像分类网络中的一部分,该图像分类网络还可以包括分类层,分类层可以是通过全连接网络构建的,在如上的实施例中,可以将第二样本特征输入到分类层中进行分类,获得对应的分类结果。在该种情况下,基于第一蒸馏损失可以调整第一图像特征提取网络和分类层的参数。
步骤S130:固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,得到目标特征提取网络。
在得到图像特征提取性能更好的第二图像特征提取网络后,可以利用第二图像特征提取网络对第一图像特征提取网络进行训练。其中,第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,第二特征分布损失是基于第二图像特征提取网络对第二样本图像提取的第三样本特征和第一图像特征提取网络对第二样本图像提取的第四样本特征确定的;第二分类损失是根据对第三样本特征进行分类得到的分类结果和对第四样本特征进行分类得到的分类结果确定的。
在步骤S130中,固定作为教师模型的第二图像特征提取网络的参数,来基于第二蒸馏损失对作为学生模型的第一图像特征提取网络进行训练,以将第二图像特征提取网络的特征提取能力迁移到第一图像特征提取网络。
在按照步骤S120对第一预设网络进行训练后,一方面,可以使训练得到的第二图像特征提取网络具有准确提取图像特征的能力,另一方面,使第二图像特征提取网络的特征空间与第一图像特征提取网络的特征空间之间的差异较小。由于第一预设网络的网络规模大于第一图像特征提取网络的网络规模,网络规模更大的第一预设网络的学习能力更强,在训练数据充足的情况下,第二图像特征提取网络的特征提取准确性相较于第一图像特征提取网络的特征提取准确性更高,这样,在步骤S130中,固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,由于第二蒸馏损失是根据第二特征分布损失与第二分类损失确定的,第二特征分布损失可以用于监督第一图像特征提取网络在蒸馏过程中的特征分布,使第一图像特征提取网络的特征空间向特征提取准确度更高的第二图像特征提取网络的特征空间靠拢,减少第一特征提取网络与第二图像特征提取网络的特征空间之间的差异;第二分类损失可以反映分类准确度,通过第二分类损失可以约束第一图像特征提取网络的特征类别准确性。
在一些实施例中,步骤S130可以包括如下步骤B1~步骤B6:
在本申请中,为便于区分,将步骤S130中用于训练第一图像特征提取网络的样本图像称为第二样本图像。第二样本图像可以是从第二手掌图像中提取的掌纹图像。
步骤B1:将训练集中的第二样本图像输入至第二图像特征提取网络进行特征提取,得到第三样本特征。
作为一种实施方式,服务端可以将第二样本图像输入至第二图像特征提取网络进行图像特征提取,得到样本特征/>。
步骤B2:将第二样本图像输入至第一图像特征提取网络进行特征提取,得到第四样本特征。
作为一种实施方式,服务端可以将第二样本图像输入至第一图像特征提取网络进行图像特征提取,得到样本特征/>。
步骤B3:基于第三样本特征和第四样本特征,确定第二特征分布损失。
作为一种实施方式,服务端可以根据第三样本特征和第四样本特征之间的差异表示,计算出第二特征分布损失,例如,基于第三样本特征和第四样本特征之间的均方误差计算第二特征分布损失。
通过第一特征分布损失可以监督第一图像特征提取网络(即,学生模型)在蒸馏过程中的特征分布,使其向第二图像特征提取网络(即,教师模型)的特征分布靠拢,从而具有与第二图像特征提取网络相当的图像特征提取性能。
步骤B4:基于对第三样本特征进行分类得到的第二样本图像的分类结果和对第四样本特征进行分类得到的第二样本图像的分类结果,确定第二分类损失。
作为一种实施方式,服务端可以对第三样本特征进行分类,得到第二样本图像对应的第一分类结果,并对第四样本特征进行分类,得到第二样本图像对应的第二分类结果,进而,基于第二样本图像对应的第一分类结果和第二样本图像对应的第二分类结果,确定第一子分类损失。该第一子分类损失可以对于作为学生模型的第一图像特征提取网络在特征类别准确性方面进行约束。例如,对第三样本特征进行分类得到的分类结果是指根据第三样本特征进行身份标识分类得到的身份识别结果;对第四样本特征进行分类得到的分类结果是指根据第四样本特征进行身份标识分类得到的身份识别结果。
示例性地,服务端可以将第三样本特征输入至全连接层进行分类,也即将第三样本特征映射到不同对象标识,由全连接层输出第三样本图像对应的分类结果。服务端可以将第四样本特征输入至全连接层进行分类,也即将第四样本特征映射到不同对象标识,由全连接层输出第四样本图像对应的分类结果/>。进而,服务端可以基于分类结果/>和分类结果/>计算出第一子分类损失。例如,计算出和/>之间的平均绝对误差作为第一子分类损失/>。
进一步地,服务端可以基于第二样本图像对应的第二分类结果和第二样本图像对应的标签,确定第二子分类损失,进而,基于第一子分类损失和第二子分类损失,确定第二分类损失。例如,计算出第四样本图像对应的分类结果和第二样本图像对应的图像标签/>之间的Arcface损失作为第二子分类损失/>。
其中,第二子分类损失用于约束训练过程中第一图像特征提取网络的分类准确性。
在一些实施例中,由于在按照步骤S120进行训练后,第二图像特征提取网络的图像特征提取准确性较高,因此,可以将第二图像特征提取网络对第二样本图像提取的第三样本特征进行分类所得到的分类结果作为监督,在此种情况下,可以将基于第三样本特征进行分类得到的分类结果和基于第四样本特征进行分类得到的分类结果之间的差异作为第二分类损失。在一些实施例中,可以基于绝对值损失函数、均方差损失函数、对数损失函数等来计算基于第三样本特征进行分类得到的分类结果和基于第四样本特征进行分类得到的分类结果之间的差异。
步骤B5:基于第二特征分布损失和第二分类损失,确定第二蒸馏损失。
在一些实施例中,可以将第二特征分布损失与第二分类损失进行加权计算,得到第二蒸馏损失。其中,第二特征分布损失和第二分类损失的加权系数可根据实际需要设定。
示例性地,服务端可以对第二特征分布损失、第一子分类损失以及第二子分类损失/>进行加权计算,得到第二蒸馏损失,该过程可用如下的公式(6)表示:(6)/>
其中,分别为作为第二特征分布损失、第一子分类损失和第二子分类损失的加权系数,也即超参数,/>之和为1,加权系数具体可以根据实际训练的历史数据进行设置。
步骤B6:固定第二图像特征提取网络的权重参数,基于第二蒸馏损失,迭代更新第一图像特征提取网络的权重参数,直至达到第二训练结束条件,得到目标特征提取网络。
作为一种实施方式,在根据训练集对第一图像特征提取网络进行多个训练周期的迭代训练,其中,每个训练周期可以包括多次的迭代训练,不断对第一图像特征提取网络的权重参数进行优化,使得第二蒸馏损失越来越小,以使第二蒸馏损失小于第二阈值,此时,则表示第一图像特征提取网络已收敛,停止迭代更新第一图像特征提取网络的权重参数,结束网络训练,得到目标特征提取网络。
在一些实施例中,图像特征提取网络可以作为图像分类网络中的一部分,该图像分类网络还可以包括分类层的情况,在如上的实施例中,可以将第三样本特征输入到分类层中进行分类,获得对应的分类结果;以及将第四样本特征输入到分类层中进行分类,获得对应的分类结果。在该种情况下,基于第二蒸馏损失可以调整第二图像特征提取网络和分类层的参数,这样可以保证分类层的参数与分类任务相关。这样,在训练结束后,可以将目标特征提取网络输出的图像特征,输入到分类层中进行分类,获得图像的分类结果。在本实施例中,可以通过预训练得到第一图像特征提取网络,进而先固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络,再固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,得到目标特征提取网络。通过分阶段训练的方式,由作为学生模型的第一图像特征提取网络先蒸馏作为教师模型的第一预设网络,以得到高性能的第二图像特征提取网络,由于第一蒸馏损失是根据第一特征分布损失和第一分类损失,该第一特征分布损失可以使第二图像特征提取网络的特征空间与第一图像特征提取网络的特征空间相近,该第一分类损失可以约束所提取特征的准确性,由此保证训练得到的第二图像特征网络一方面特征空间与第一图像特征提取网络的特征空间相近,另一方面可以保证第二图像特征提取网络的特征提取准确性;然后由作为教师模型的第二图像特征提取网络再蒸馏作为学生模型的第一图像特征提取网络,由于第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,第二特征分布损失可以使第一图像特征提取网络的特征空间进一步向第二图像特征提取网络的特征空间靠拢,而且,基于第二分布损失可以约束第二图像特征提取网络的特征提取准确性。通过本申请的方法,可以缩小教师模型与学生模型之间的特征分布差异,并确保训练得到的目标特征提取网络具有稀疏性和特征提取的准确性,从而有效提高目标特征提取网络的图像特征提取性能,目标特征提取网络能够准确地提取图像特征。
请参阅图5,图5示出了本申请另一个实施例提供的图像特征提取方法的流程示意图。在本实施例中,该图像特征提取方法可以由终端执行,例如,智能手机、平板电脑、笔记本电脑、台式电脑、支付终端、门禁终端、车载终端、智能锁、智能家居设备、可穿戴设备、嵌入式设备等该至少具有存储、计算和通信功能的计算机设备。其中,图像特征提取方法所使用的目标特征提取网络可以由服务端训练得到,之后,可以将目标特征提取网络部署到终端上,由于目标特征提取网络的网络规模较小,可以保证目标特征提取网络在内存和运算资源较小的终端上稳定运行。如图5所示,所述图像特征提取方法可以包括以下步骤:
步骤S210:获取目标图像。
本申请可以根据具体的使用场景,基于不同类型的训练集按需训练出对应的目标特征提取网络,以对该场景下获取的目标图像进行图像特征提取,例如,目标图像可以包括从手掌图像中提取的掌纹图像,或者从面部图像中提取的瞳孔图像等,在此不做限定。该目标图像是指待进行特征提取的图像。
步骤S220:将目标图像输入至目标特征提取网络进行特征提取,得到目标图像对应的图像特征。
其中,在提取到目标图像对应的图像特征后,可以基于目标图像对应的图像特征进行分类,获得目标图像对应的分类结果。其中,所进行的分类是与目标特征提取网络所对应的分类任务相关的,例如,分类任务可以是掌纹识别任务、人脸识别任务、虹膜识别任务、前景识别任务、虹膜识别任务、指纹识别任务等。
在一些实施例中,步骤S220之后,该方法还包括:基于目标图像对应的图像特征进行身份识别,确定目标图像对应的身份识别结果。
作为一种实施方式,终端通过网络从服务端下载完成训练的目标特征提取网络,该目标特征提取网络可以用于在身份识别场景下对待识别的图像进行图像特征提取。具体地,终端可以将目标图像经目标特征提取网络提取的图像特征与特征库中各注册图像特征进行相似度计算,并基于所计算到的相似度,在特征库中确定与目标图像对应的图像特征相似度最高的目标注册图像特征。
进一步地,终端可以将与目标注册图像特征关联的身份信息,确定为目标图像对应的身份识别结果。可选地,基于目标图像对应的图像特征,确定目标图像对应的身份识别结果,并基于目标图像对应的身份识别结果进行支付。可选地,在其他场景中,身份识别结果还可以用于设备解锁、闸机放行以及门禁开关等。
请参阅图6,图6示出了本申请又一个实施例提供的掌纹支付的流程图。在本实施例中,目标图像可以是从手掌图像中提取的掌纹图像,该掌纹支付方法可以由终端执行,例如,智能手机、平板电脑、笔记本电脑、台式电脑、支付终端、门禁终端、车载终端、智能锁、智能家居设备、可穿戴设备、嵌入式设备等该至少具有存储、计算和通信功能的计算机设备。其中,掌纹支付方法所使用的目标特征提取网络可以由服务端基于掌纹图像训练得到,因此,目标特征提取网络可以用于掌纹支付场景。如图6所示,掌纹支付方法可以包括以下步骤:
(1)获取待识别的手掌图像。
示例性地,移动支付场景中,购物对象在使用终端进行支付时,支付终端可以采集购物对象的手掌图像。例如,采集购物对象的右手的手掌图像。
(2)基于检测网络对手掌图像进行关键点检测,得到手掌图像中的关键点。
示例性地,终端可以使用基于目标检测算法的检测网络对手掌图像进行关键点检测。其中,所检测的关键点可以是手掌图像中的指缝关键点,该指缝关键点可以包括食指与中指之间的第一指缝关键点、中指与无名指之间的第二指缝关键点、无名指与小指之间的第三指缝关键点。
请参阅图7,图7示出一种掌纹识别的应用场景示意图。如图7所示,终端可以使用目标检测算法(例如,YOLO算法)从手掌图像识别出三个关键点(Landmarks):食指与中指之间的第一指缝关键点作为关键点A、中指无名指之间的指缝关键点作为关键点B、无名指与小指的指缝关键点作为关键点C。
(3)基于关键点,从手掌图像中截取掌纹图像。
示例性地,如图7所示,终端可以将关键点A和关键点C所在的直线作为局部坐标系x轴,将关键点A与关键点C的中点作为坐标原点,根据关键点B确立与x轴垂直的y轴,沿y轴负方向与坐标原点距离为AC长度处的点作为掌纹中心点D,并进一步基于掌纹中心点D确定垂直于y轴的边界,具体的,可以将通过y轴上与掌纹中心点D之间的距离d的点,且与x轴平行的直线作为垂直于y轴的边界。d可以等于五分之六倍的AC距离,y轴上与掌纹中心点D之间的距离d的点例如图7中点E。进一步地,终端可以将以掌纹中心点D作为中心,且与掌纹中心点D之间的距离为关键点A和关键点C的距离乘3/2的区域作为感兴趣区域(Region ofInterest,ROI),也即掌纹图像的边长d,以D点为中心,d为边长提取正方形的ROI作为掌纹图像。
(4)将掌纹图像输入至目标特征提取网络进行特征提取,得到掌纹图像对应的图像特征。
(5)基于掌纹图像对应的图像特征,确定掌纹图像对应的身份识别结果。
(6)基于掌纹图像对应的身份识别结果进行支付。
作为一种实施方式,终端可以将掌纹图像对应的图像特征与掌纹特征底库中的各个注册掌纹特征进行余弦相似度计算,计算过程如下:
其中,为掌纹图像对应的图像特征的向量表示,/>为注册掌纹特征的向量表示。/>为余弦相似度。进一步地,终端可以获取余弦相似度最高的注册掌纹特征所对应的对象标识,并将该对象标识作为身份识别结果。进而,终端可以基于对象标识进行支付。
可选地,为了验证本申请的图像特征提取网络的训练方法的有效性。可以使用2000个对象ID,每个对象ID对应有100张图片,共20万张图片进行分组对比测试,将相关技术中用于掌纹识别的特征提取网络、本申请的图像特征提取网络的训练方法得到的图像特征提取网络,对比项可以包括:通过率和误识率。对比结果如下表所示:
如上表所示,本申请相比与相关技术,通过率提升5%,误识率降低2%,充分体现了我们方法的有效性。这是因为,本申请提出的两阶段蒸馏方式,第一阶段教师模型学习学生模型特征分布,第二阶段学生模型学习教师模型特征分布,在第一阶段得到了高性能的教师模型基础上进行第二阶段的网络训练,有效减小了教师模型和学生模型特征之间的差异,从而使得最终训练得到的学生模型,也即,目标特征提取网络的特征提取能力得到提升。
请参阅图8,其示出了本申请实施例提供的一种图像特征提取网络的训练装置300的结构框图。该图像特征提取网络的训练装置300包括:
预训练模块310,用于对图像特征提取网络进行预训练,得到第一图像特征提取网络;
第一训练模块320,用于固定所述第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络;所述第一图像特征提取网络的网络规模小于所述第一预设网络的网络规模;所述第一蒸馏损失是根据第一特征分布损失和第一分类损失确定的,所述第一特征分布损失是基于所述第一图像特征提取网络对第一样本图像提取的第一样本特征和所述第一预设网络对所述第一样本图像提取的第二样本特征确定的;所述第一分类损失是根据所述第一样本图像对应的标签和基于第二样本特征进行分类所得到的分类结果确定的;
第二训练模块330,用于固定所述第二图像特征提取网络的参数,基于第二蒸馏损失对所述第一图像特征提取网络进行训练,得到目标特征提取网络;所述第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,所述第二特征分布损失是基于所述第二图像特征提取网络对第二样本图像提取的第三样本特征和所述第一图像特征提取网络对所述第二样本图像提取的第四样本特征确定的;所述第二分类损失是根据对所述第三样本特征进行分类得到的分类结果和对所述第四样本特征进行分类得到的分类结果确定的。
在一些实施例中,第一训练模块320包括:第一提取单元,用于将训练集中的第一样本图像输入至所述第一图像特征提取网络进行特征提取,得到第一样本特征;第二提取单元,用于将所述第一样本图像输入至所述第一预设网络进行特征提取,得到第二样本特征;第一损失确定单元,用于基于所述第一样本特征和所述第二样本特征,确定第一特征分布损失;第二损失确定单元,用于基于所述第一样本图像对应的标签和对所述第二样本特征进行分类得到的所述第一样本图像的分类结果,确定第一分类损失;第一蒸馏损失确定单元,用于基于所述第一特征分布损失和所述第一分类损失进行加权计算,得到第一蒸馏损失;第一训练单元,用于固定所述第一预设网络的权重参数,基于所述第一蒸馏损失,迭代更新所述第一预设网络的权重参数,直至达到第一训练结束条件,得到第二图像特征提取网络。
在一些实施例中,第二损失确定单元可以具体用于:将所述第二样本特征输入至分类层进行分类,得到所述第一样本图像对应的分类结果;基于所述所述第一样本图像对应的分类结果和所述第一样本图像对应的标签进行损失计算,得到第一分类损失。
在一些实施例中,第二训练模块330可以包括:第三提取单元,用于将训练集中的第二样本图像输入至所述第二图像特征提取网络进行特征提取,得到第三样本特征;第四提取单元,用于将所述第二样本图像输入至所述第一图像特征提取网络进行特征提取,得到第四样本特征;第三损失确定单元,用于基于所述第三样本特征和所述第四样本特征,确定第二特征分布损失;第四损失确定单元,用于基于对第三样本特征进行分类得到的所述第二样本图像的分类结果和对第四样本特征进行分类得到的所述第二样本图像的分类结果,确定第二分类损失;第二蒸馏损失确定单元,用于基于所述第二特征分布损失和所述第二分类损失,确定第二蒸馏损失;第二训练单元,用于固定所述第二图像特征提取网络的权重参数,基于所述第二蒸馏损失,迭代更新所述第一图像特征提取网络的权重参数,直至达到第二训练结束条件,得到目标特征提取网络。
在一些实施例中,第四损失确定单元具体可以用于:对第三样本特征进行分类,得到所述第二样本图像对应的第一分类结果;对第四样本特征进行分类,得到所述第二样本图像对应的第二分类结果;基于所述第二样本图像对应的第一分类结果和所述第二样本图像对应的第二分类结果,确定第一子分类损失;基于所述第二样本图像对应的第二分类结果和所述第二样本图像对应的标签,确定第二子分类损失;基于所述第一子分类损失和所述第二子分类损失,确定第二分类损失。
在一些实施例中,预训练模块310可以具体用于:将训练集中的样本图像输入至预设的图像特征提取网络进行特征提取,得到样本图像特征;基于样本图像特征进行分类得到的所述样本图像的分类结果;基于所述样本图像的分类结果和所述所述样本图像对应的图像标签,确定图像分类损失;基于所述图像分类损失,对所述图像特征提取网络的权重参数进行迭代更新,直至达到目标训练结束条件,得到第一图像特征提取网络。
在一些实施例中,第一样本图像是从第一手掌图像中提取的掌纹图像,第二样本图像是从第二手掌图像中提取的掌纹图像;基于第二样本特征进行分类所得到的分类结果是指根据所述第二样本特征进行身份标识分类得到的身份识别结果;所述对所述第三样本特征进行分类得到的分类结果是指根据所述第三样本特征进行身份标识分类得到的身份识别结果;所述对所述第四样本特征进行分类得到的分类结果是指根据所述第四样本特征进行身份标识分类得到的身份识别结果。
在一些实施例中,第一训练模块320,还可以用于获取第一手掌图像;基于检测网络对所述第一手掌图像进行关键点检测,得到所述第一手掌图像中的关键点;基于所述关键点,从所述第一手掌图像中截取掌纹图像,作为所述第一样本图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
如此,通过预训练得到第一图像特征提取网络,进而先固定第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络,再固定第二图像特征提取网络的参数,基于第二蒸馏损失对第一图像特征提取网络进行训练,得到目标特征提取网络。通过两阶段的网络训练方式,由作为学生模型的第一图像特征提取网络先蒸馏作为教师模型的第一预设网络,以得到高性能的第二图像特征提取网络,然后由作为教师模型的第二图像特征提取网络再蒸馏作为学生模型的第一图像特征提取网络,使得网络训练的两个阶段都能缩小教师模型与学生模型之间的特征差异,并确保训练得到的目标特征提取网络具有稀疏性,从而有效提高目标特征提取网络的图像特征提取性能,目标特征提取网络能够准确地提取图像特征。
请参阅图9,其示出了本申请实施例提供的一种图像特征提取装置400的结构框图。该图像特征提取装置400包括:图像获取模块410,用于获取目标图像;特征提取模块420,用于将所述目标图像输入至目标特征提取网络进行特征提取,得到所述目标图像对应的图像特征;所述目标特征提取网络为基于上述实施例提供的图像特征提取网络的训练装置300得到的。
在一些实施例中,该图像特征提取装置400还可以包括身份识别模块,用于基于所述目标图像对应的图像特征进行身份匹配,确定所述目标图像对应的身份识别结果。
在一些实施例中,该身份识别模块可以具体用于:将所述目标图像对应的图像特征与特征库中各注册图像特征进行相似度计算;基于所计算到的相似度,在所述特征库中确定与所述目标图像对应的图像特征相似度最高的目标注册图像特征;将与所述目标注册图像特征关联的身份信息,确定为所述目标图像对应的身份识别结果。
在一些实施例中,该图像特征提取装置400还可以包括应用模块,用于基于所述目标图像对应的身份识别结果进行支付。
在一些实施例中,所述目标图像为从手掌图像中提取的掌纹图像,图像获取模块410可以具体用于:获取待识别的手掌图像;基于检测网络对所述手掌图像进行关键点检测,得到所述手掌图像中的关键点;基于所述关键点,从所述手掌图像中截取所述掌纹图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
如图10所示,本申请实施例还提供一种计算机设备500,该计算机设备500包括处理器510、存储器520、电源530和输入单元540,存储器520存储有计算机程序,计算机程序被处理器510调用时,可实执行上述实施例提供的各种方法步骤。本领域技术人员可以理解,图中示出的计算机设备的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器510可以包括一个或多个处理核。处理器510利用各种接口和线路连接整个电池管理系统内的各种部分,通过运行或执行存储在存储器520内的指令、程序、指令集或程序集,调用存储在存储器520内的数据,执行电池管理系统的各种功能和处理数据,以及执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体控制。可选地,处理器510可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器510(CentralProcessing Unit,CPU)、图像处理器510(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器510中,单独通过一块通信芯片进行实现。
存储器520可以包括随机存储器520(Random Access Memory,RAM),也可以包括只读存储器520(Read-Only Memory)。存储器520可用于存储指令、程序、指令集或程序集。存储器520可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各种方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本和音视频数据)等。相应地,存储器520还可以包括存储器控制器,以提供处理器510对存储器520的访问。
电源530可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源530还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
输入单元540,该输入单元540可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备500还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器510会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器520中,并由处理器510来运行存储在存储器520中的比如电话本和音视频数据,从而实现前述实施例提供的各种方法步骤。
如图11所示,本申请实施例还提供一种计算机可读存储介质600,该计算机可读存储介质600中存储有计算机程序610,计算机程序610可被处理器调用于执行本申请实施例提供的各种方法步骤。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质600具有执行上述实施例中任何方法步骤的计算机程序的存储空间。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序能够以适当形式进行压缩。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例提供的各种方法步骤。
以上,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭示如上,然而并非用以限定本申请,任何本领域技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (13)
1.一种图像特征提取网络的训练方法,其特征在于,所述方法包括:
对图像特征提取网络进行预训练,得到第一图像特征提取网络;
固定所述第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络;所述第一图像特征提取网络的网络规模小于所述第一预设网络的网络规模;所述第一蒸馏损失是根据第一特征分布损失和第一分类损失确定的,所述第一特征分布损失是基于所述第一图像特征提取网络对第一样本图像提取的第一样本特征和所述第一预设网络对所述第一样本图像提取的第二样本特征确定的;所述第一分类损失是根据所述第一样本图像对应的标签和基于第二样本特征进行分类所得到的分类结果确定的;
固定所述第二图像特征提取网络的参数,基于第二蒸馏损失对所述第一图像特征提取网络进行训练,得到目标特征提取网络;所述第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,所述第二特征分布损失是基于所述第二图像特征提取网络对第二样本图像提取的第三样本特征和所述第一图像特征提取网络对所述第二样本图像提取的第四样本特征确定的;所述第二分类损失是根据对所述第三样本特征进行分类得到的分类结果和对所述第四样本特征进行分类得到的分类结果确定的。
2.根据权利要求1所述的方法,其特征在于,所述固定所述第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络,包括:
将训练集中的第一样本图像输入至所述第一图像特征提取网络进行特征提取,得到第一样本特征;
将所述第一样本图像输入至所述第一预设网络进行特征提取,得到第二样本特征;
基于所述第一样本特征和所述第二样本特征,确定第一特征分布损失;
基于所述第一样本图像对应的标签和对所述第二样本特征进行分类得到的所述第一样本图像的分类结果,确定第一分类损失;
基于所述第一特征分布损失和所述第一分类损失进行加权计算,得到第一蒸馏损失;
固定所述第一预设网络的权重参数,基于所述第一蒸馏损失,迭代更新所述第一预设网络的权重参数,直至达到第一训练结束条件,得到第二图像特征提取网络。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一样本图像对应的标签和对所述第二样本特征进行分类得到的所述第一样本图像的分类结果,确定第一分类损失,包括:
将所述第二样本特征输入至分类层进行分类,得到所述第一样本图像对应的分类结果;
基于所述第一样本图像对应的分类结果和所述第一样本图像对应的标签进行损失计算,得到第一分类损失。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述固定所述第二图像特征提取网络的参数,基于第二蒸馏损失对所述第一图像特征提取网络进行训练,得到目标特征提取网络,包括:
将训练集中的第二样本图像输入至所述第二图像特征提取网络进行特征提取,得到第三样本特征;
将所述第二样本图像输入至所述第一图像特征提取网络进行特征提取,得到第四样本特征;
基于所述第三样本特征和所述第四样本特征,确定第二特征分布损失;
基于对第三样本特征进行分类得到的所述第二样本图像的分类结果和对第四样本特征进行分类得到的所述第二样本图像的分类结果,确定第二分类损失;
基于所述第二特征分布损失和所述第二分类损失,确定第二蒸馏损失;
固定所述第二图像特征提取网络的权重参数,基于所述第二蒸馏损失,迭代更新所述第一图像特征提取网络的权重参数,直至达到第二训练结束条件,得到目标特征提取网络。
5.根据权利要求4所述的方法,其特征在于,所述基于对第三样本特征进行分类得到的所述第二样本图像的分类结果和对第四样本特征进行分类得到的所述第二样本图像的分类结果,确定第二分类损失,包括:
对第三样本特征进行分类,得到所述第二样本图像对应的第一分类结果;
对第四样本特征进行分类,得到所述第二样本图像对应的第二分类结果;
基于所述第二样本图像对应的第一分类结果和所述第二样本图像对应的第二分类结果,确定第一子分类损失;
基于所述第二样本图像对应的第二分类结果和所述第二样本图像对应的标签,确定第二子分类损失;
基于所述第一子分类损失和所述第二子分类损失,确定第二分类损失。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述对图像特征提取网络进行预训练,得到第一图像特征提取网络,包括:
将训练集中的样本图像输入至预设的图像特征提取网络进行特征提取,得到样本图像特征;
基于样本图像特征进行分类,得到所述样本图像的分类结果;
基于所述样本图像的分类结果和所述样本图像对应的图像标签,确定图像分类损失;
基于所述图像分类损失,对所述图像特征提取网络的权重参数进行迭代更新,直至达到目标训练结束条件,得到第一图像特征提取网络。
7.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一样本图像是从第一手掌图像中提取的掌纹图像,所述第二样本图像是从第二手掌图像中提取的掌纹图像;
所述基于第二样本特征进行分类所得到的分类结果是指根据所述第二样本特征进行身份标识分类得到的身份识别结果;
所述对所述第三样本特征进行分类得到的分类结果是指根据所述第三样本特征进行身份标识分类得到的身份识别结果;
所述对所述第四样本特征进行分类得到的分类结果是指根据所述第四样本特征进行身份标识分类得到的身份识别结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取第一手掌图像;
基于检测网络对所述第一手掌图像进行关键点检测,得到所述第一手掌图像中的关键点;
基于所述关键点,从所述第一手掌图像中截取掌纹图像,作为所述第一样本图像。
9.一种图像特征提取方法,其特征在于,所述方法包括:
获取目标图像;
将所述目标图像输入至目标特征提取网络进行特征提取,得到所述目标图像对应的图像特征;所述目标特征提取网络为基于权利要求1至8任一项所述的方法得到的。
10.一种图像特征提取网络的训练装置,其特征在于,所述装置包括:
网络获取模块,用于对图像特征提取网络进行预训练,得到第一图像特征提取网络;
第一训练模块,用于固定所述第一图像特征提取网络的参数,基于第一蒸馏损失对第一预设网络进行训练,得到第二图像特征提取网络;所述第一图像特征提取网络的网络规模小于所述第一预设网络的网络规模;所述第一蒸馏损失是根据第一特征分布损失和第一分类损失确定的,所述第一特征分布损失是基于所述第一图像特征提取网络对第一样本图像提取的第一样本特征和所述第一预设网络对所述第一样本图像提取的第二样本特征确定的;所述第一分类损失是根据所述第一样本图像对应的标签和基于第二样本特征进行分类所得到的分类结果确定的;
第二训练模块,用于固定所述第二图像特征提取网络的参数,基于第二蒸馏损失对所述第一图像特征提取网络进行训练,得到目标特征提取网络;所述第二蒸馏损失是根据第二特征分布损失和第二分类损失确定的,所述第二特征分布损失是基于所述第二图像特征提取网络对第二样本图像提取的第三样本特征和所述第一图像特征提取网络对所述第二样本图像提取的第四样本特征确定的;所述第二分类损失是根据对所述第三样本特征进行分类得到的分类结果和对所述第四样本特征进行分类得到的分类结果确定的。
11.一种图像特征提取装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标图像;
特征提取模块,用于将所述目标图像输入至目标特征提取网络进行特征提取,得到所述目标图像对应的图像特征;所述目标特征提取网络为基于权利要求1至8任一项所述的方法得到的。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1至8任一项所述的方法,或执行如权利要求9所述的方法。
13.一种计算机设备,其特征在于,包括:
存储器;
处理器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至8任一项所述的方法,或执行如权利要求9所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311375904.8A CN117115469B (zh) | 2023-10-23 | 2023-10-23 | 图像特征提取网络的训练方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311375904.8A CN117115469B (zh) | 2023-10-23 | 2023-10-23 | 图像特征提取网络的训练方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117115469A CN117115469A (zh) | 2023-11-24 |
CN117115469B true CN117115469B (zh) | 2024-01-05 |
Family
ID=88800563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311375904.8A Active CN117115469B (zh) | 2023-10-23 | 2023-10-23 | 图像特征提取网络的训练方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115469B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359993A (zh) * | 2021-09-29 | 2022-04-15 | 北京百度网讯科技有限公司 | 模型训练方法、人脸识别方法、装置、设备、介质及产品 |
CN115147687A (zh) * | 2022-07-07 | 2022-10-04 | 浙江啄云智能科技有限公司 | 学生模型训练方法、装置、设备及存储介质 |
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN116805387A (zh) * | 2023-08-24 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 基于知识蒸馏的模型训练方法、质检方法和相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
-
2023
- 2023-10-23 CN CN202311375904.8A patent/CN117115469B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359993A (zh) * | 2021-09-29 | 2022-04-15 | 北京百度网讯科技有限公司 | 模型训练方法、人脸识别方法、装置、设备、介质及产品 |
CN115147687A (zh) * | 2022-07-07 | 2022-10-04 | 浙江啄云智能科技有限公司 | 学生模型训练方法、装置、设备及存储介质 |
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN116805387A (zh) * | 2023-08-24 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 基于知识蒸馏的模型训练方法、质检方法和相关设备 |
Non-Patent Citations (3)
Title |
---|
Decoupled Knowledge Distillation;Borui Zhao等;《2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;第11943-11952页 * |
Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition;Sungho Shin等;《 Lecture Notes in Computer Science》;第13672卷;第631-647页 * |
知识蒸馏方法研究与应用综述;司兆峰等;《中国图象图形学报》;第28卷(第09期);第2817-2832页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117115469A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN109284675B (zh) | 一种用户的识别方法、装置及设备 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN112052186B (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
CN111931002A (zh) | 一种匹配方法以及相关设备 | |
CN113052150B (zh) | 活体检测方法、装置、电子设备和计算机可读存储介质 | |
CN112633425B (zh) | 图像分类方法和装置 | |
WO2023231753A1 (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN110263726B (zh) | 一种基于深度相关性特征学习的指静脉识别方法及装置 | |
CN114581702A (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN114004364A (zh) | 采样优化方法、装置、电子设备及存储介质 | |
CN117115469B (zh) | 图像特征提取网络的训练方法、装置、存储介质及设备 | |
CN111753583A (zh) | 一种识别方法及装置 | |
CN111797849A (zh) | 用户活动识别方法、装置、存储介质及电子设备 | |
CN114140718A (zh) | 一种目标跟踪方法、装置、设备及存储介质 | |
Kang et al. | Ontology-based inference system for adaptive object recognition | |
Chen | Design and simulation of AI remote terminal user identity recognition system based on reinforcement learning | |
CN110135372A (zh) | Vr艺术媒体交互环境下基于线性判决和svm的动作识别方法 | |
Khadhraoui et al. | Local generic representation for patch uLBP-based face recognition with single training sample per subject | |
CN117173731B (zh) | 一种模型训练的方法、图像处理的方法以及相关装置 | |
WO2024066927A1 (zh) | 图像分类模型的训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |