CN116797904A - 一种图像识别不确定性知识蒸馏方法与系统 - Google Patents
一种图像识别不确定性知识蒸馏方法与系统 Download PDFInfo
- Publication number
- CN116797904A CN116797904A CN202310444502.2A CN202310444502A CN116797904A CN 116797904 A CN116797904 A CN 116797904A CN 202310444502 A CN202310444502 A CN 202310444502A CN 116797904 A CN116797904 A CN 116797904A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- image
- uncertainty
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims abstract description 189
- 230000014509 gene expression Effects 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000006870 function Effects 0.000 claims description 85
- 238000003672 processing method Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种图像识别不确定性知识蒸馏方法与系统,收集有标签训练图像样本;选定第一神经网络模型,使用训练图像样本进行训练,得到训练好的第一神经网络模型,输入训练样本图像得到第一神经网络模型中间层样本特征表达及输出的软标签信息;选定第二神经网络模型,对训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型的中间层样本特征表达进行不确定性建模,得到第一损失函数;使用第一神经网络模型输出的软标签信息及训练图像样本,联合第一损失函数,更新第二神经网络模型的参数,得到训练好的第二神经网络模型,同时利用本发明第二神经网络模型对待处理图像进行图像识别处理,提高图像识别的准确度。
Description
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种图像识别不确定性知识蒸馏方法与系统。
背景技术
知识蒸馏是神经网络模型压缩与加速技术之一,其能有效地降低基于神经网络的图像分类或者目标检测等模型在资源受限设备上的资源需求同时保持较高的识别精度。其基本原理是使用一个训练完成的图像识别精度很高的神经网络模型(第一神经网络模型)的特征表达及预测图像标签信息,指导另一个参数量及计算量更少的神经网络模型(第二神经网络模型)的训练。该方法能明显地改善第二神经网络模型的图像识别精度而所需的资源很少。然而,目前的知识蒸馏技术在从第一神经网络模型中提取及蒸馏知识表达时认为该知识表达是准确且判别性强的,忽略了第一神经网络模型中知识表达中包含的噪声信息及其他误导性信息,使得第二神经网络模型获取的知识表达表达能力较弱,阻碍了图像识别精度的进一步提升。
发明内容
为解决现有技术的不足,在知识蒸馏时能提取更多确定性且判别性强的知识表达,实现提升第二神经网络模型图像识别精度的目的,本发明采用如下的技术方案:
一方面,本发明提供一种图像识别不确定性知识蒸馏方法,所述方法包括:
S100:收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
S200:选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
S300:选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
S400:使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型;
可选地,选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数,包括:
选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
可选地,使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,包括:
使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数;
第二方面,本发明提供一种图像识别不确定性知识蒸馏系统,包括:
获取模块,用于收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
第一更新模块:与所述获取模块连接,用于选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
不确定性建模模块:与所述获取模块及第一更新模块连接,用于选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
第二更新模块:与获取模块、第一更新模块及不确定性建模模块连接,用于使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型
可选地,不确定性建模模块,具体包括:
选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
可选地,第二更新模块,具体包括:
使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数;
第三方面,应用本发明提供一种图像识别不确定性知识蒸馏方法的一种图像处理方法,包括:
获取第二数量的待处理测试图像样本;
利用前述图像识别不确定性知识蒸馏方法训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
得到识别处理结果并输出;
第四方面,本发明提供一种图像处理系统,包括:
获取模块,用于获取第二数量的待处理测试图像样本;
识别处理模块,与所述获取模块连接,用于利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
识别输出模块,与所述识别处理模块连接,用于获取待处理图像,利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理,得到识别处理结果并输出;
本发明还涉及一种图像识别处理设备,包括图像采集器、存储器、一个或多个处理器和外部输出器,所述图像采集器用于采集第一及第二数量的图像样本,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种图像识别不确定性知识蒸馏方法、一种图像处理方法,所述外部输出器用于输出显示所述图像处理方法得到的图像识别处理结果。
本发明还涉及一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本发明的一种图像识别不确定性知识蒸馏方法及一种图像处理方法。
本发明还涉及一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本发明的一种图像识别不确定性知识蒸馏方法及一种图像处理方法。
经由上述的技术方案可知,与现有技术相比,本发明的优势和有益效果在于:
本发明可以灵活地用于任意的教师-学生模型组合,可以很轻易地部署到现有的神经网络模型中对图像进行识别,相比现有的知识蒸馏的图像识别技术,能够明显地改善第二神经网络模型的图像识别精度,且训练完成的模型计算量大幅减少,以ResNet32x4作为第一神经网络模型,以VGG8作为第二神经网络模型,在CIFAR100数据集上使用本发明,可以将第二神经网络模型的图像分类精度由70.36%提升至75.88%。
附图说明
图1是本发明实施例中一种图像识别不确定性知识蒸馏方法的流程图。
图2是本发明实施例中一种图像识别不确定性知识蒸馏方法的得到第一损失函数流程图。
图3是本发明实施例中一种图像识别不确定性知识蒸馏方法的更新第二神经网络模型的参数流程图。
图4是本发明实施例中一种图像识别不确定性知识蒸馏系统的结构示意图。
图5是本发明实施例中一种图像处理方法的流程图。
图6是本发明实施例中一种图像处理系统的结构示意图。
图7是本发明实施例中一种图像识别不确定性知识蒸馏方法的图像识别设备的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
实施例1
如图1所示,一种图像识别不确定性知识蒸馏方法,具体步骤包括:
S100:收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
本发明的实施例中,收集样本图像并处理和标注待处理图像,划分为第一数量的有标签训练图像样本,保存至数据存储设备中;标注是指根据任务需求对图像或者图像中的像素进行人工识别种类,如图像分类任务中则是标出图像中主要的物体类别、目标检测任务中则是标出图像中物体所含的像素多少及类别等。所收集的图像包含但不限于人脸图像、自然场景图像等。
S200:选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
本发明的实施例中,选定第一神经网络模型,并使用步骤S100中的第一数量的有标签训练图像样本训练,训练后的神经网络模型结构文件及参数值保存至数据存储设备中;第一神经网络模型可以采用包括但不限于现有的任意神经网络模型,如ResNet、VGGnet等,或者重新设计新型的卷积神经网络模型。
在本发明实施例中,使用第一神经网络模型对有标签训练图像样本进行处理得到中间层样本特征表达及软标签信息,具体地,得到的第一神经网络模型中间层样本特征表达形式化为(ct表示样本特征表达的通道数量,ht表示样本特征表达的高度,wt表示样本特征表达的宽度),得到的软标签信息形式化为:/>(C表示图像内目标类别数目)。
S300:选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
本发明的实施例中,选定第二神经网络模型,第二神经网络模型可以采用包括但不限于现有的任意神经网络模型,如MobileNet、ShuffleNet等,或者重新设计新型的卷积神经网络模型。
本发明实施例中,可选地,如图2所示,步骤S300所述选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数,具体步骤包括:
S301:选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
本发明的实施例中,可选地,选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达,具体地,得到的第二神经网络模型中间层样本特征表达形式化为(cs表示样本特征表达的通道数量,hs表示样本特征表达的高度,ws表示样本特征表达的宽度)
S302:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
本发明实施例中,可选地,计算通道之间的语义相似度使用余弦距离计算,形式化地表示为:
式中,表示特征维度变换函数,φ表示转换函数,使得第二神经网络模型中间层样本特征表达的通道数量与第一神经网络模型中间层样本特征表达的通道数量相同,||||2表示二元范数。
S303:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
本发明实施例中,可选地,计算样本特征表达的空间特征表达之间的语义相似度使用余弦距离计算,形式化地表示为:
S304:根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
本发明实施例中,可选地,得到第一神经网络模型每个样本特征表达不确定性的均值,形式化地表示为:
μ=diag(αch)⊙diag(αsp) (4)
式中,diag表示取矩阵对角线值的操作,⊙表示可扩展的按元素相乘。
S305:根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
本发明实施例中,可选地,根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值,形式化地表示为:
式中,表示全连接层,/>表示卷积操作。
S306:根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
本发明实施例中,可选地,根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,形式化地表示为:
ω=μ+σ×∈ (8)
式中,∈表示标准高斯分布。
本发明实施例中,可选地,得到知识蒸馏第一损失函数,形式化地表示为:
式中,M表示第一及第二神经网络模型中间层特征表达的总的特征位置个数,λ表示损失权重。
S400:使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型;
本发明的实施例中,可选地,如图3所示,步骤S400所述使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,具体步骤包括:
S401:使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
本发明实施例中,可选地,使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息为:(C表示图像内目标类别数目)。
S402:使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
本发明实施例中,可选地,使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数,形式化地表示为:
式中,表示softmax函数。
S403:使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
本发明实施例中,可选地,使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数,形式化地表示为:
S404:第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数;
本发明实施例中,可选地,第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数,形式化地表示为:
式中,T及γ表示损失函数权重值。
实施例2
如图4所示,本实施例提供一种用于实现实施例1所述的方法的一种图像识别不确定性知识蒸馏系统,包括:
获取模块501,用于收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
第一更新模块502:与所述获取模块501连接,用于选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
不确定性建模模块503:与所述获取模块501及第一更新模块502连接,用于选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
第二更新模块504:与获取模块501、第一更新模块502及不确定性建模模块503连接,用于使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型
本发明实施例中,可选地,不确定性建模模块503,具体用于:
选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
本发明实施例中,可选地,第二更新模块504,具体用于:
使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数。
实施例3
如图5所示,本发明实施例提供应用实施例1所述的一种图像识别不确定性知识蒸馏的一种图像处理方法,所述图像处理方法具体步骤包括:
S601:获取第二数量的待处理测试图像样本;
在本发明实施例中,待处理测试图像样本可以是自然景观图像、人脸图像等。
S602:利用前述图像识别不确定性知识蒸馏方法训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
S603:得到识别处理结果并输出。
实施例4
如图6所示,本实施例提供实现实施例3的一种图像处理方法的一种图像处理系统,所述图像处理系统包括:
获取模块701,用于获取第二数量的待处理测试图像样本;
识别处理模块702,与所述获取模块701连接,用于利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
识别输出模块703,与所述识别处理模块702连接,用于获取待处理图像,利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理,得到识别处理结果并输出。
实施例5
与实施例1所述的一种图像识别不确定性知识蒸馏方法的实施例相对应,本发明还提供了实现一种图像识别不确定性知识蒸馏方法的图像识别设备的实施例。
参见图7,本发明实施例提供的实现一种图像识别不确定性知识蒸馏方法的图像识别设备,包括图像采集器、存储器、一个或多个处理器和外部输出器,图像采集器用于采集第一及第二数量的图像样本,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例1中的一种图像识别不确定性知识蒸馏方法及实施例3所述的图像处理方法,所述外部输出器用于输出显示实施例3所述图像处理方法得到的图像识别处理结果。
本发明图像识别不确定性知识蒸馏方法及图像识别设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明图像识别不确定性知识蒸馏方法及图像识别设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的图像识别不确定性知识蒸馏方法及图像识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (11)
1.一种图像识别不确定性知识蒸馏方法,具体步骤包括:
S100:收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
S200:选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
S300:选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
S400:使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型。
2.根据权利要求1所述一种图像识别不确定性知识蒸馏方法,其特征在于,所述选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数,具体步骤包括:
S301:选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
S302:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
S303:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
S304:根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
S305:根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
S306:根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数。
3.根据权利要求1所述一种图像识别不确定性知识蒸馏方法,其特征在于,所述使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,具体步骤包括:
S401:使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
S402:使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
S403:使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
S404:第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数。
4.一种图像识别不确定性知识蒸馏系统,具体包括:
获取模块,用于收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
第一更新模块:与所述获取模块连接,用于选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
不确定性建模模块:与所述获取模块及第一更新模块连接,用于选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
第二更新模块:与获取模块、第一更新模块及不确定性建模模块连接,用于使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型。
5.根据权利要求4所述一种图像识别不确定性知识蒸馏系统,其特征在于,所述不确定性建模模块,具体包括:
选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数。
6.根据权利要求4所述一种图像识别不确定性知识蒸馏系统,其特征在于,所述第二更新模块,具体包括:
使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数。
7.应用权利要求1所述的一种图像识别不确定性知识蒸馏方法的一种图像处理方法,包括:获取第二数量的待处理测试图像样本;
利用前述图像识别不确定性知识蒸馏方法训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
得到识别处理结果并输出。
8.实施权利要求7所述方法的一种图像处理系统,其特征在于,包括:
获取模块,用于获取第二数量的待处理测试图像样本;
识别处理模块,与所述获取模块连接,用于利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
识别输出模块,与所述识别处理模块连接,用于获取待处理图像,利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理,得到识别处理结果并输出。
9.一种图像识别处理设备,包括图像采集器、存储器、一个或多个处理器及外部输出器,所述图像采集器用于采集第一及第二数量的图像样本,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1所述的一种图像识别不确定性知识蒸馏方法及权利要求7所述的图像处理方法,所述外部输出器用于输出显示权利要求7所述图像处理方法得到的图像识别处理结果。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行权利要求1所述的一种图像识别不确定性知识蒸馏方法及权利要求7所述的一种图像处理方法。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1所述的一种图像识别不确定性知识蒸馏方法及权利要求7所述的一种图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310444502.2A CN116797904A (zh) | 2023-04-24 | 2023-04-24 | 一种图像识别不确定性知识蒸馏方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310444502.2A CN116797904A (zh) | 2023-04-24 | 2023-04-24 | 一种图像识别不确定性知识蒸馏方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116797904A true CN116797904A (zh) | 2023-09-22 |
Family
ID=88042860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310444502.2A Pending CN116797904A (zh) | 2023-04-24 | 2023-04-24 | 一种图像识别不确定性知识蒸馏方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797904A (zh) |
-
2023
- 2023-04-24 CN CN202310444502.2A patent/CN116797904A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN108229591B (zh) | 神经网络自适应训练方法和装置、设备、程序和存储介质 | |
CN112184508B (zh) | 一种用于图像处理的学生模型的训练方法及装置 | |
CN110443222B (zh) | 用于训练脸部关键点检测模型的方法和装置 | |
CN110245579B (zh) | 人流密度预测方法及装置、计算机设备及可读介质 | |
CN111652225B (zh) | 基于深度学习的非侵入式摄像读取方法及系统 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN111723728A (zh) | 基于双向交互网络的行人搜索方法、系统、装置 | |
CN112419202B (zh) | 基于大数据及深度学习的野生动物图像自动识别系统 | |
CN111753746B (zh) | 属性识别模型训练方法、识别方法、电子设备、存储介质 | |
CN112508078A (zh) | 图像多任务多标签识别方法、系统、设备及介质 | |
CN109685805B (zh) | 一种图像分割方法及装置 | |
CN113158909A (zh) | 基于多目标跟踪的行为识别轻量化方法、系统、设备 | |
CN112712005B (zh) | 识别模型的训练方法、目标识别方法及终端设备 | |
CN113723288A (zh) | 基于多模态混合模型的业务数据处理方法及装置 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN113569852A (zh) | 语义分割模型的训练方法、装置、电子设备及存储介质 | |
CN110781818B (zh) | 视频分类方法、模型训练方法、装置及设备 | |
CN115830399A (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN113496148A (zh) | 一种多源数据融合方法及系统 | |
CN112668608B (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN113255819B (zh) | 用于识别信息的方法和装置 | |
CN116797904A (zh) | 一种图像识别不确定性知识蒸馏方法与系统 | |
CN111462893B (zh) | 一种提供诊断依据的中文病历辅助诊断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |