CN117079017A - 可信的小样本图像识别分类方法 - Google Patents
可信的小样本图像识别分类方法 Download PDFInfo
- Publication number
- CN117079017A CN117079017A CN202310992882.3A CN202310992882A CN117079017A CN 117079017 A CN117079017 A CN 117079017A CN 202310992882 A CN202310992882 A CN 202310992882A CN 117079017 A CN117079017 A CN 117079017A
- Authority
- CN
- China
- Prior art keywords
- training
- evidence
- meta
- neural network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 156
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 34
- 238000005457 optimization Methods 0.000 claims description 25
- 238000000137 annealing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 14
- 241000607479 Yersinia pestis Species 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000011002 quantification Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 241001124076 Aphididae Species 0.000 description 1
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- 241000221785 Erysiphales Species 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种可用于小样本场景下的可信图像识别分类方法,包括:基于预训练的证据获取模块,使用预训练得到的卷积神经网络对输入图像进行特征提取,特征经过预训练证据神经网络得到预训练证据;基于元训练的证据获取模块,使用元训练得到的元变换参数对预训练模型进行任务自适应,得到特定于某一任务的元训练卷积神经网络,对图像进行特征提取,特征经过元训练证据神经网络得到元训练证据;基于证据融合机制的可信预测模块,将预训练证据和元训练证据进行加权融合,通过融合证据机制得到融合证据向量,并根据主观逻辑理论和证据理论进一步得到图像的识别分类结果和预测不确定性。本发明具有图像识别正确率高、泛化性好的特点,同时能对识别结果做出合理的不确定性估计,使模型预测结果更可信。
Description
技术领域
本发明涉及人工智能技术领域,特别是一种可信的小样本图像识别分类方法。
背景技术
图像识别分类是在各个领域中的一个重要问题。不同的应用场景对于准确的图像识别分类具有迫切需求,包括但不限于农作物病虫害监测和防治领域。准确地识别和分类图像对于农业生产的管理和防治、智能监控系统、医学诊断和其他领域都具有重要意义。因此,一种可信的小样本图像识别分类方法对于提高识别准确性和效率至关重要。
传统的图像识别分类方法主要依赖于大量标注的训练样本,对于小样本情况下的图像识别分类仍面临一定的困难。此外,图像中的复杂变化和样本差异使得不同图像的识别难度和歧义性也不同,给模型的分类结果带来很大的不确定性。
近年来,随着计算机视觉和深度学习技术的快速发展,基于图像的小样本图像识别分类方法受到了广泛关注。这些方法利用深度学习网络和模型集成等技术,通过充分利用有限的样本进行训练,实现了在小样本情况下高效准确的图像识别分类。
然而,现有解决小样本图像识别分类问题的方法往往缺乏对预测结果的不确定性估计,即缺乏对模型预测的置信度度量。这使得决策者无法了解模型在识别过程中的可靠性,无法准确判断预测结果的置信水平。为了提高决策者对模型预测的理解和信任,以及提升图像识别分类的管理和应用效果,有必要提出一种可信的小样本图像识别分类方法,能够准确识别和分类图像,并提供对预测结果的不确定性量化。这样的方法在各个领域都具有广泛的应用前景。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种可信的小样本图像识别分类方法,本发明在小样本场景下能够实现高识别准确率并提供模型预测不确定性度量,从而实现可信的图像识别分类。
为实现上述目的,本发明采用的技术方案是:一种可信的小样本图像识别分类方法,包括以下步骤:
步骤1、对输入图像进行特征提取,获取其预训练特征向量hpre和元学习特征向量hmeta;
步骤2、分别将所述预训练特征向量hpre和元学习特征向量hmeta作为预训练证据神经网络ωpre和元训练证据神经网络ωmeta的输入,输出预训练证据向量epre和元训练证据向量emeta,通过证据融合机制得到待识别图像的融合证据向量e,用于确定其预测的迪利克雷分布Dir(p|α),根据迪利克雷分布,构建证据损失优化函数并以最小化该证据损失优化函数为目标,更新模型参数;
步骤3、对于待识别分类的新图像,使用步骤1进行不同特征提取,然后使用步骤2获得图像对应的迪利克雷分布Dir(p|α),进行可信的图像识别分类,将图像的识别分类结果以及该结果的不确定性系数作为输出一同返回给用户。
作为本发明的进一步改进,步骤1中,对输入图像进行特征提取,获取其预训练特征向量hpre具体如下:
使用包含所有元训练集样本的大规模数据集对卷积神经网络进行预训练,使用交叉熵作为损失优化函数,利用梯度下降算法对卷积神经网络中包含的参数进行更新;将待识别分类图像作为输入,送到预训练得到的卷积神经网络中,即可得到预训练特征向量hpre。
作为本发明的进一步改进,步骤1中,对输入图像进行特征提取,获取其元训练特征向量hmeta具体如下:
在预训练卷积神经网络的基础上,通过引入两个额外的轻量化可学习参数:放缩参数φ1和变换参数φ2,将放缩参数φ1和变换参数φ2直接作用于预训练卷积神经网络的卷积核上,进而得到特定于某一任务的元训练卷积神经网络;将图像作为输入,送到所述元训练卷积神经网络中,即可得到元训练特征向量hmeta。
作为本发明的进一步改进,在步骤2中,所述预训练证据向量epre和元训练证据向量emeta分别由预训练证据神经网络ωpre和元训练证据神经网络ωmeta得到,预训练证据神经网络ωpre和元训练证据神经网络ωmeta均为由一层全连接层组成的前馈神经网络;使用Softplus作为激活函数,用来保证预训练证据神经网络ωpre和元训练证据神经网络ωmeta的输出证据向量所包含的全部元素为非负值,具体方式为:
epre=Softplus(ωpre(hpre)),emeta=Softplus(ωmeta(hmeta))。
作为本发明的进一步改进,在步骤2中,通过证据融合机制来得到待识别图像的融合证据向量e具体如下:
e=μ1epre+μ2emeta;其中,μ1和μ2分别为两个权重系数,用于控制预训练证据向量epre和元训练证据向量emeta在融合证据向量e中所占的比重,权重系数越大,融合证据向量e便会越靠近该权重系数所对应的证据向量。
作为本发明的进一步改进,在步骤2中,使用融合证据向量e来确定待识别图像所对应的迪利克雷分布Dir(p|α),具体方式为:
Dir(p|α)=Dir(p|e+1),其中,1是与融合证据向量e维度相同的全1向量;根据主观逻辑理论和证据理论,图像被识别为第k类的概率描述为:其中,/>被称为迪利克雷强度;对于该图像预测的总体不确定性描述为:/>其中,K表示K分类预测问题。
作为本发明的进一步改进,在步骤2的模型训练阶段,为训练任务内每一个待识别的图像样本构建证据损失优化函数 将KL散度作为正则化项,加入到证据损失优化函数/>中,得到最终的损失优化函数,具体如下:/>其中,/>是从原始迪利克雷分布参数α中移除“非错误证据”后的迪利克雷分布参数,/>y为one-hot形式的图像标签;λt∈[0,1]为正则化退火系数,用于控制正则化项对于模型的影响。
作为本发明的进一步改进,在步骤2的模型参数更新阶段,以最小化损失优化函数为目标,将/>分别对预训练证据神经网络ωpre的可学习参数、元训练证据神经网络ωmeta的可学习参数和两个额外的轻量化可学习参数:放缩参数φ1和变换参数φ2求导,利用梯度下降算法进行参数更新,直到模型收敛或损失函数值减小到某一阈值。
本发明的有益效果是:
本发明具有图像识别正确率高、泛化性好的特点,同时能对识别结果做出合理的不确定性估计,使模型预测结果更可信。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的框架示意图;
图3为本发明实施例中可信的小样本图像识别分类方法和对比方法MEDL在三个小样本图像分类基准数据集上5-way 5-shot实验设置下的识别准确率ACC随不确定性阈值变化的关系图;
图4为本发明实施例中可信的小样本图像识别分类方法在两个农作物病虫害识别数据集上5-way 1-shot和5-way 5-shot实验设置下的识别准确率ACC随不确定性阈值变化的关系图;
图5为本发明实施例中可信的小样本图像识别分类方法在两个农作物病虫害识别数据集上5-way 5-shot实验设置下的对于分布内样本和分布外样本检测的效果图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例1
如图1所示,一种可信的小样本图像识别分类方法,包括以下步骤:
(1)对输入图像进行特征提取,获取其预训练特征向量hpre和元学习特征向量hmeta。
(2)分别将步骤(1)中得到的两个特征向量hpre和hmeta,作为预训练证据神经网络ωpre和元训练证据神经网络ωmeta的输入,输出预训练证据向量epre和元训练证据向量ωmeta,通过证据融合机制得到待识别图像的融合证据向量e,用于确定其预测的迪利克雷分布Dir(p|α),根据该迪利克雷分布,构建证据损失优化函数并以最小化该函数为目标,对模型参数进行更新。
(3)对于待识别分类的新图像,使用步骤(1)进行不同特征提取,然后使用步骤(2)获得该图像对应的迪利克雷分布Dir(p|α),进行“可信”的图像识别分类,并将该图像的识别分类结果以及该结果的不确定性系数作为输出一同返回给用户。
步骤(1)中输入图像的预训练特征向量hpre是通过以下步骤得到的:使用包含所有元训练集样本的大规模数据集对卷积神经网络进行预训练,使用交叉熵作为损失优化函数,利用梯度下降算法对卷积神经网络中包含的参数进行更新。将图像作为输入,送到预训练得到的卷积神经网络中,即可得到特征向量hpre,由于该特征是通过预训练卷积神经网络得到的,该网络的参数在后续模型的训练中不参与更新,因此,特征hpre也称为预训练特征向量。
步骤(1)中输入图像的元训练特征向量hmeta是通过以下步骤得到的:在预训练卷积神经网络的基础上,通过引入两个额外的轻量化可学习参数:放缩参数φ1和变换参数φ2,这两个参数直接作用于预训练卷积神经网络的卷积核上,进而得到特定于某一任务的元训练卷积神经网络。将图像作为输入,送到上述元训练卷积神经网络中,即可得到特征向量hmeta,由于该特征是由任务自适应后的卷积神经网络得到的,该网络的参数会随着上述两个可学习参数在后续模型的元训练过程中的更新而改变,因此,特征hmeta也称为元训练特征向量。
步骤(2)中预训练证据向量epre和元训练证据向量emeta分别由预训练证据神经网络ωpre和元训练证据神经网络ωmeta得到,这两个证据神经网络均为由一层全连接层组成的前馈神经网络,并使用Softplus作为激活函数,用来保证两个证据神经网络的输出证据向量所包含的全部元素为非负值,具体方式为:epre=Softplus(ωpre(hpre)),emeta=Softplus(ωmeta(hmeta))。
步骤(2)中使用证据融合机制来得到待识别图像的融合证据向量e,具体方式为:e=μ1epre+μ2emeta。其中,μ1和μ2分别为两个权重系数,用于控制预训练证据向量epre和元训练证据向量emeta在融合证据向量e中所占的比重,权重系数越大,融合证据向量e便会越靠近该权重系数所对应的证据向量。
步骤(2)中使用融合证据向量e来确定待识别图像所对应的迪利克雷分布Dir(p|α),具体方式为:Dir(p|α)=Dir(p|e+1),其中,1是与融合证据向量e维度相同的全1向量。根据主观逻辑理论(Subjective Logic Theory)和证据理论(Evidence Theory),该图像被识别为第k类的概率描述为:其中,/>被称为迪利克雷强度;该预测的总体不确定性描述为:/>其中,K表示K分类预测问题。
在步骤(2)的模型训练阶段,为训练任务内每一个待识别的图像样本构建证据损失优化函数 由于该函数的优化目标为:尽可能增加正确类别上的证据数量,因此,会导致错误类别上的证据数量也随之增加;为了进一步限制模型分配给错误类别上的证据数量,本实施例将KL散度/>作为正则化项,加入到证据损失优化函数中,得到最终的损失优化函数,具体如下:/> 其中,/>是从原始迪利克雷分布参数α中移除“非错误证据”后的迪利克雷分布参数,y为one-hot形式的图像标签;λt∈[0,1]为正则化退火系数,用于控制正则化项对于模型的影响。
在步骤(2)的模型参数更新阶段,以最小化损失优化函数为目标,将/>分别对预训练证据神经网络ωpre的可学习参数、元训练证据神经网络ωmeta的可学习参数和两个额外的轻量化可学习参数:放缩参数φ1和变换参数φ2求导,利用梯度下降算法进行参数更新,直到模型收敛或损失函数值减小到某一阈值。
实施例2
如图1和图2所示,一种可信的小样本图像识别分类方法,该方法包括以下步骤:
步骤(1):对数据集D进行划分:根据图像所属类别,将整个数据集D划分为三个不相交的子集:元训练集Dtr、元验证集Dval和元测试集Dte,三者满足以下关系:Dtr∪Dval∪Dte=D。
步骤(2):获取预训练卷积神经网络:
步骤(2-1):随机初始化卷积神经网络的模型参数。
步骤(2-2):利用步骤(1-1)中得到的元训练集Dtr对步骤(2-1)中随机初始化的卷积神经网络进行训练,使用交叉熵作为损失函数,利用梯度下降算法对模型参数进行更新,当模型收敛或者损失函数达到某一阈值时停止训练,保存最优模型的参数,得到预训练卷积神经网络。
步骤(3):构建表示输入图像特征的预训练特征向量hpre:利用步骤(2-2)中得到的预训练卷积神经网络对输入图像进行特征提取,得到预训练特征向量hpre。
步骤(4):构建表示输入图像特征的元训练特征向量hmeta:
步骤(4-1):对放缩参数φ1和变换参数φ2分别进行全1初始化和全0初始化。
步骤(4-2):使用步骤(4-1)得到的放缩参数φ1和变换参数φ2对步骤(2-2)得到的预训练卷积神经网络的卷积核参数进行更新,得到元训练卷积神经网络。
步骤(4-3):使用步骤(4-2)得到的元训练卷积神经网络对输入图像进行特征提取,得到元训练特征向量hmeta。
步骤(5):获取预训练证据向量epre和元训练证据向量ωmeta:
步骤(5-1):对预训练证据神经网络ωpre和元训练证据神经网络ωmeta分别进行随机初始化。
步骤(5-2):将步骤(3),步骤(4-3)得到的预训练特征向量ωpre和元训练特征向量ωmeta分别作为输入送入到步骤(5-1)中得到的预训练证据神经网络ωpre和元训练证据神经网络ωmeta中,得到预训练证据向量epre和元训练证据向量emeta。
步骤(6):利用步骤(5-2)得到的预训练证据向量epre和元训练证据向量emeta进行证据融合,得到最终的证据向量e:e=μ1epre+μ2emeta,其中,μ1和μ2分别为两个融合系数,用于控制相应的证据向量占最终证据向量的比重。
步骤(7):利用步骤(7)得到的融合证据向量e来确定待识别图像所对应的迪利克雷分布Dir(p|α):Dir(p|α)=Dir(p|e+1),其中,1是与融合证据向量e维度相同的全1向量。
步骤(8):根据步骤(8)得到的迪利克雷分布,构建损失优化函数 其中,/>是从原始迪利克雷分布参数α中移除“非错误证据”后的迪利克雷分布参数,/> 为one-hot形式的图像标签;λt∈[0,1]为正则化退火系数,用于控制正则化项对于模型的影响。
步骤(9):以最小化步骤(9)中得到的损失优化函数为目标,分别对步骤(4-1)和步骤(5-1)中得到的放缩参数φ1、变换参数φ2、预训练证据神经网络ωpre和元训练证据神经网络ωmeta所包含的可学习参数进行求导,利用梯度下降算法进行参数更新,直到模型收敛或者损失值逐渐缩小到某一阈值,保存此时得到的模型参数。
步骤(10):对新的输入图像进行识别分类,使用步骤(3),(4)进行图像特征提取,使用步骤(5),(6)进行特征到证据的变换和融合,使用步骤(7)对该输入图像进行“可信”预测,将识别分类结果以及该结果的不确定性系数作为输出,一同返回给用户。
实施例3
如图1和图2所示,一种可信的小样本图像识别分类方法,详细过程如下:
步骤(1):对本实施例所用的三个小样本基准数据集miniImageNet、CIFAR-FS和FC-100进行划分,三个数据集的统计信息如表1所示。根据图像所属的类别,分别以64:16:20、64:16:20和60:20:20的比例将整个数据集D划分为互不相交的三个子集:元训练集Dtr、元验证集Dval和元测试集Dte,三个子集满足条件:Dtr∪Dval∪Dte=D。
表1
步骤(2):统一输入图像的分辨率:由于拍摄设备和分类目标的不同,导致得到的图像的分辨率存在差异,为了方便特征提取,需要对输入图像的分辨率进行统一,本实施例中,所有输入模型的图像的分辨率都被统一为84*84。
步骤(3):获取预训练卷积神经网络(具体网络结构如表2所示):
步骤(3-1):随机初始化卷积神经网络和分类器ω的参数。
步骤(3-2):从元训练集Dtr中随机采样一个小批量的数据分别利用步骤(3-1)中的卷积神经网络/>和分类器ω进行特征提取:/>分类:
步骤(3-3):使用交叉熵作为损失函数:其中,N表示小批量大小,K表示分类类别。利用梯度下降算法对卷积神经网络/>和分类器ω的参数进行更新:/>
步骤(3-4):重复步骤(3-2)和步骤(3-3),直到模型收敛或损失函数的数值减小到某一阈值,由于分类器ω和后续过程无关,因此,只将最优的预训练卷积神经网络进行保存。
步骤(4):分别从步骤(1)得到的元训练集Dtr、元验证集Dval和元测试集Dte中进行任务采样,得到对应的元训练任务集元验证任务集/>和元测试任务集/>以元训练任务集/>的采样为例,具体过程如下:
步骤(4-1):从元训练集Dtr包含的所有类别中随机N个类。
步骤(4-2):从步骤(4-1)得到的N个类中,每个类下随机采样K个样本,组成任务的支持集/>再从每个类下随机采样Q个样本,组成任务/>的查询集/>一个任务/>的支持集/>和查询集/>需要满足条件:
步骤(4-3):重复步骤(4-1)和步骤(4-2)T次,即可得到包含T个任务的元训练任务集
步骤(5):获取放缩参数φ1、变换参数φ2、预训练证据神经网络ωpre和元训练证据神经网络ωmeta:
步骤(5-1):对放缩参数φ1和变换参数φ2分别进行全1初始化和全0初始化,对预训练证据神经网络ωpre和元训练证据神经网络ωmeta分别进行随机初始化。
步骤(5-2):从元训练任务集中随机选择一个元训练任务/>
步骤(5-3):利用步骤(2)统一输入图像的分辨率,利用步骤(3)得到的预训练卷积神经网络构建表示输入图像特征的预训练特征向量hpre。
步骤(5-4):使用放缩参数φ1和变换参数φ2对步骤(5-3)中预训练卷积神经网络的卷积核参数进行变换,得到元训练卷积神经网络/>(与预训练卷积神经网络结构相同,只是卷积核参数不同),与步骤(5-3)类似,构建表示输入图像特征的元训练特征向量hmeta。
步骤(5-5):将步骤(5-3),步骤(5-4)得到的预训练特征向量hpre和元训练特征向量hmeta分别作为输入送入到预训练证据神经网络ωpre和元训练证据神经网络ωmeta中,得到预训练证据向量epre和元训练证据向量emeta:epre=Softplus(ωpre(hpre)),emeta=Softplus(ωmeta(hmeta)),其中,Softplus(x)=log(1+ex)。
步骤(5-6):利用步骤(5-5)得到的预训练证据向量mpre和元训练证据向量emeta进行证据融合,得到最终的证据向量e:e=μ1epre+μ2emeta,其中,μ1和μ2分别为两个融合系数,用于控制相应的证据向量占最终证据向量的比重,权重系数越大,融合证据向量e便会越靠近该权重系数所对应的证据向量。需要说明的是,本实施例中所采用的证据融合方式为“相加”,事实上,针对其他具体实施例,如“逐行元素相乘”,“加权平均”等方式也能够作为特征融合的方式。
步骤(5-7):利用步骤(5-6)得到的融合证据向量e来确定输入图像所对应的迪利克雷分布Dir(p|α):Dir(p|α)=Dir(p|e+1),其中,1是与融合证据向量e维度相同的全1向量。根据主观逻辑理论(Subjective Logic Theory)和证据理论(Evidence Theory),该输入图像被识别为第k类的概率描述为: 其中,/>被称为迪利克雷强度;该预测的总体不确定性描述为:/>其中,K表示K分类预测问题,随着当前输入图像获取到的分类证据向量e的增大,该预测的整体不确定性会不断下降。
步骤(5-8):根据步骤步骤(5-7)得到的迪利克雷分布,构建损失优化函数 其中,/>是从原始迪利克雷分布参数α中移除“非错误证据”后的迪利克雷分布参数,/> y为one-hot形式的图像标签;λt∈[0,1]为正则化退火系数,用于控制正则化项对于模型的影响。
步骤(5-9):对步骤(5-2)得到的元训练任务中的支持集/>重复步骤(5-3)到步骤(5-8),得到损失优化函数/>对预训练证据神经网络ωpre和元训练证据神经网络ωmeta的参数进行求导,利用梯度下降算法对参数进行更新,得到任务自适应后的参数 其中,α为内循环学习率。
步骤(5-10):将步骤(5-9)得到的任务自适应后的参数作为初始化参数,对步骤(5-2)得到的元训练任务/>中的查询集/>重复步骤(5-3)到步骤(5-8),得到损失优化函数/>对放缩参数φ1和变换参数φ2以及预训练证据神经网络ωpre和元训练证据神经网络ωmeta的参数进行求导,利用梯度下降算法对参数进行更新,得到新的模型参数 其中,β为外循环学习率。
步骤(5-11):将步骤(5-10)得到的新的模型参数作为初始化参数,对元训练任务集中包含的总共T个任务,重复步骤(5-2)到步骤(5-10),不断更新模型参数。
步骤(5-12):重复步骤(4)和步骤(5),直到模型收敛或者损失值逐渐缩小到某一阈值,得到放缩参数φ1、变换参数φ2、预训练证据神经网络ωpre和元训练证据神经网络ωmeta。
步骤(6):使用步骤(4)得到的元验证任务集和步骤(5)得到的模型参数((φ1,φ2,ωpre,ωmeta),重复步骤(5-2)到步骤(5-9),对模型超参数进行调节,如:步骤(5-6)中的两个证据融合系数μ1和μ2,步骤(5-8)中的正则化退火系数λt等。
步骤(7):在步骤(4)得到的元测试任务集上进行模型性能测试:
步骤(7-1):对于第i个元测试任务利用步骤(5)得到的模型参数和步骤(6)得到的模型超参数作为初始参数,对其支持集/>重复步骤(5-3)到步骤(5-9),得到任务自适应后的模型参数(φ1,φ2,ωpre,ωmeta)。
步骤(7-2):利用步骤(7-1)得到的模型参数,对第i个元测试任务的查询集/>重复步骤步骤(5-3)到步骤(5-7),得到查询集/>上所有图像的识别结果和结果对应的不确定性值。
步骤(7-3):对元测试任务集上的所有任务重复步骤(7-1)到步骤(7-2),得到对应的输出结果。
表2
本实施例提供的所述一种可信的小样本图像识别分类方法的实验基于开源代码库PyTorch,具体实验参数设置如表3所示。
表3
性能测试:
以下对本实施例进行性能评测,对于本实施例中三个小样本基准数据集miniImageNet、CIFAR-FS和FC-100,使用元训练集Dtr对卷积神经网络进行预训练和对整个模型进行元训练,同时使用元测试集Dval对模型超参数进行选取,最后在元测试集Dte上测试模型性能。需要说明的是,本实施例对于某一输入图像的预测结果(步骤(5-7)),除了其对应类别之外,还有对当前预测结果的不确定性系数。因此,本实施例首先采用预测准确率ACC作为基础分类性能衡量指标,与一些经典的小样本图像识别分类方法,如:MAML、MEDL和MTL进行了对比,以证明本实施例在小样本图像识别分类问题上的有效性。此外,本实施例还提供一系列实验结果,用以验证本实施例同时还具有良好的不确定性量化的能力。
本实施例提供的一种可信的小样本图像识别分类方法与上述提到的一些经典的小样本图像识别分类方法在miniImageNet、CIFAR-FS和FC-100数据集上的预测准确率ACC如表4所示。不同方法在同一数据集和同一实验设置下的最高预测准确率ACC被加粗表示。
由表4中实验结果可知:本实施例提供的一种可信的小样本图像识别分类方法在5-way5-shot实验设置下的预测准确率ACC高于其余三个对比方法,在miniImageNet、CIFAR-FS和FC-100数据集上分别提升了2.5%、1.8%和2.4%。而在5-way1-shot实验设置下,虽然本实施例提供的方法与MTL相比,预测准确率ACC存在一定差距,但在miniImageNet数据集上的0.8%和FC-100数据集上的1.1%的差距是可以接受的。以上实验结果证明了本实施例提供的一种可信的小样本图像识别分类方法在解决小样本图像识别分类问题上的有效性。
表4
相较于传统的小样本图像识别分类方法,本实施例的优势在于:它不仅能够准确地预测输入图像所属的类别,还能够提供对预测结果的不确定性量化。传统的小样本图像识别分类方法往往仅仅给出一个确定性的分类结果,而无法表达模型对其预测的置信度。然而,在小样本图像识别分类任务中,存在着许多困难和挑战,例如类别之间的视觉相似性、数据的噪声和标注错误等。这些因素可能导致模型的预测结果出现不确定性。本实施例通过引入证据融合机制,能够综合考虑预训练证据和元训练证据,并进行加权融合。这种融合的方法不仅能够保证预测的准确性,还能够提供对预测结果的不确定性量化。
本实施例提供的一种可信的小样本图像识别分类方法在三个小样本分类基准数据集上5-way5-shot设置下的不确定性量化的实验结果如图3所示。首先,使用步骤(7)得到元测试任务集中所有测试任务的预测结果和不确定性量化u。接着,使用不同的不确定性阈值来对预测结果进行筛选,如:当不确定性阈值设置为0.5时,本实施例只保留所有测试任务中不确定性量化u<0.5的预测结果。最后,只对筛选出来的预测结果进行预测准确率测试。
经过对图3的实验结果的分析,可以观察到以下情况:随着不确定性阈值的降低,所筛选出的预测结果的准确率呈现逐渐增加的趋势。例如,在低不确定性阈值区间0<u<0.4内的预测结果的预测准确率要显著高于在高不确定性阈值区间0.6<u<1的预测结果。这一观察结果证明了本实施例提出的一种可信的小样本图像识别分类识别方法能够对预测结果做出合理的不确定性量化。通过量化预测结果的不确定性,不同领域的使用者可以更加全面地理解模型的预测结果,并做出相应的决策。
案例研究:
为了进一步验证本实施例提出的一种可信的小样本图像识别分类识别方法在实际应用场景下的可行性,在两个实际的农作物病虫害识别数据集IP102和PlantVillage上进行了多个实验。两个农作物病虫害识别数据集的数据统计如表5所示。
表5
与先前实验相同,本实施例首先采用预测准确率ACC作为基础分类性能衡量指标,以说明本实施例在实际的农作物病虫害识别应用上的有效性。
本实施例提供的一种可信的小样本图像识别分类识别方法在IP102和PlantVillage数据集上的预测准确率ACC如表6所示:在IP102数据集上,使用本实施例提供的方法进行5-way1-shot预测时,平均准确率为57.67%,标准差为0.93。而使用5-way 5-shot预测时,平均准确率提高至75.84%,标准差为0.69。在Plant Village数据集上,使用本实施例提供的方法进行5-way 1-shot预测时,平均准确率为79.45%,标准差为0.70。而使用5-way 5-shot预测时,平均准确率进一步提高至91.67%,标准差为0.39。
由表6中实验结果可知:本实施例提供的一种可信的小样本图像识别分类识别方法在IP102和Plant Village数据集上表现出可靠的预测准确率。在IP102数据集上,该方法能够在不同的样本数量情况下取得不错的预测结果,且随着样本数量的增加,预测准确率有显著提升。在Plant Village数据集上,该方法在1-shot和5-shot情况下均能够高效地进行识别,且5-shot情况下预测准确率更高。
表6
除此之外,本实施例还在IP102和Plant Village数据集上进行了与之前相同的不确定性量化实验,以证明本实施例提供的一种可信的小样本图像识别分类识别方法在实际应用场景下的不确定性量化的合理性。
不确定性量化的实验结果如图4所示。与之前实验得到的结论类似:随着不确定性阈值的降低,所筛选出的预测结果的准确率呈现逐渐增加的趋势。通过量化预测结果的不确定性,农作物的种植者或农业专家可以更加全面地理解模型的预测结果,并做出相应的决策。
最后,本实施例尝试将不确定性作为度量标准,用于对分布内和分布外样本进行检测。假设:样本的预测结果不确定性越大,该样本属于分布外样本的可能性就越高。
图5展示了分布内外样本检测的实验结果。值得注意的是:在IP102数据集中,主要涵盖了农作物的虫害类别,例如蚜虫、蛴螬等。而PlantVillage数据集则主要关注农作物的病害类别,例如灰霉病、白粉病等。因此,这两个数据集在病虫害类型上互为分布外数据集。
根据实验结果显示,绝大部分的分布内样本位于低不确定性区间0<u<0.4内,只有少部分的分布内样本位于高不确定性区间0.6<u<1内。相反地,对于分布外样本而言,大多数样本落在高不确定性区间0.6<u<1内,只有少数分布外样本位于低不确定性区间0<u<0.4内。这一实验结果进一步验证了本实施例的假设,即预测结果的不确定性越大,样本属于分布外的可能性越高。分布内样本通常具有更低的不确定性,因为它们更接近模型在训练过程中所见的数据分布。而分布外样本由于与训练数据的差异较大,因此更容易导致模型产生较高的不确定性。这些发现支持了本实施例提出的可信的小样本农作物病虫害图像识别方法在预测结果不确定性量化方面的有效性,同时为分布内外样本检测提供了有力的实验证据。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (8)
1.一种可信的小样本图像识别分类方法,其特征在于,包括以下步骤:
步骤1、对输入图像进行特征提取,获取其预训练特征向量hpre和元学习特征向量hmeta;
步骤2、分别将步骤1所述的预训练特征向量hpre和元学习特征向量hmeta作为预训练证据神经网络ωpre和元训练证据神经网络ωmeta的输入,输出预训练证据向量epre和元训练证据向量emeta;随后通过证据融合机制进一步得到待识别图像的融合证据向量e,用于确定其预测的迪利克雷分布Dir(p|α);根据迪利克雷分布,构建证据损失优化函数并以最小化该函数为目标,利用梯度下降算法对模型参数进行更新;
步骤3、对于待识别分类的新图像,使用步骤1进行不同特征提取,然后使用步骤2获得图像对应的迪利克雷分布Dir(p|α),进行可信的图像识别分类,将图像的识别分类结果以及该结果的不确定性系数作为输出一同返回给用户。
2.根据权利要求1所述的可信的小样本图像识别分类方法,其特征在于,步骤1中,对输入图像进行特征提取,获取其预训练特征向量hpre,具体如下:
使用包含所有元训练集样本的大规模数据集对卷积神经网络进行预训练,使用交叉熵作为损失优化函数,利用梯度下降算法对卷积神经网络中包含的参数进行更新;将待识别分类的图像作为预训练得到的卷积神经网络的输入,即可得到预训练特征向量hpre。
3.根据权利要求1所述的可信的小样本图像识别分类方法,其特征在于,步骤1中,对输入图像进行特征提取,获取其元训练特征向量hmeta,具体如下:
在预训练卷积神经网络的基础上,通过引入两个额外的轻量化可学习参数:放缩参数φ1和变换参数φ2,将放缩参数φ1和变换参数φ2直接作用于预训练卷积神经网络的卷积核上,进而得到特定于某一任务的元训练卷积神经网络;将图像作为输入,送到所述元训练卷积神经网络中,即可得到元训练特征向量hmeta。
4.根据权利要求1或2或3中所述的一种可信的小样本图像识别分类方法,其特征在于,在步骤2中,所述预训练证据向量epre和元训练证据向量emeta分别由预训练证据神经网络ωpre和元训练证据神经网络ωmeta得到,预训练证据神经网络ωpre和元训练证据神经网络ωmeta均为由一层全连接层组成的前馈神经网络;使用Softplus作为非线性激活函数,用来保证预训练证据神经网络ωpre和元训练证据神经网络ωmeta的输出证据向量所包含的全部元素为非负值,具体方式为:epre=Softplus(ωpre(hpre)),emeta=Softplus(ωmeta(hmeta))。
5.根据权利要求4所述的可信的小样本图像识别分类方法,其特征在于,在步骤2中,通过证据融合机制来得到待识别图像的融合证据向量e,具体如下:
e=μ1epre+μ2emeta;其中,μ1和μ2分别为两个权重系数,用于控制预训练证据向量epre和元训练证据向量emeta在融合证据向量e中所占的比重,权重系数越大,融合证据向量e便会越靠近该权重系数所对应的证据向量。
6.根据权利要求1或5所述的可信的小样本图像识别分类方法,其特征在于,在步骤2中,使用融合证据向量e来确定待识别图像所对应的迪利克雷分布Dir(p|α),具体方式为:
Dir(p|α)=Dir(p|e+1),其中,1是与融合证据向量e维度相同的全1向量;根据主观逻辑理论和证据理论,图像被识别为第k类的概率描述为:其中,/>被称为迪利克雷强度;对于该图像预测的总体不确定性被描述为:/>其中,K表示K分类预测问题。
7.根据权利要求6所述的可信的小样本图像识别分类方法,其特征在于,在步骤2的模型训练阶段,为训练任务内每一个待识别的图像样本构建证据损失优化函数 将KL散度/>作为正则化项,加入到证据损失优化函数/>中,得到最终的损失优化函数,具体如下:/> 其中,/>是从原始迪利克雷分布参数α中移除“非错误证据”后的迪利克雷分布参数,/>y为one-hot形式的图像标签;λt∈[0,1]为正则化退火系数,用于控制正则化项对于模型的影响。
8.根据权利要求3或7所述的可信的小样本图像识别分类方法,其特征在于,在步骤2的模型参数更新阶段,以最小化损失优化函数为目标,将/>分别对预训练证据神经网络ωpre的可学习参数、元训练证据神经网络ωmeta的可学习参数和两个额外的轻量化可学习参数:放缩参数φ1和变换参数φ2求导,利用梯度下降算法进行参数更新,直到模型收敛或损失函数值减小到某一阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310992882.3A CN117079017A (zh) | 2023-08-08 | 2023-08-08 | 可信的小样本图像识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310992882.3A CN117079017A (zh) | 2023-08-08 | 2023-08-08 | 可信的小样本图像识别分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079017A true CN117079017A (zh) | 2023-11-17 |
Family
ID=88714474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310992882.3A Pending CN117079017A (zh) | 2023-08-08 | 2023-08-08 | 可信的小样本图像识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079017A (zh) |
-
2023
- 2023-08-08 CN CN202310992882.3A patent/CN117079017A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Springenberg et al. | Improving deep neural networks with probabilistic maxout units | |
WO2019184119A1 (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN112541458B (zh) | 基于元学习的域自适应的人脸识别方法、系统、装置 | |
CN116089883B (zh) | 用于提高已有类别增量学习新旧类别区分度的训练方法 | |
CN113283368B (zh) | 一种模型训练方法、人脸属性分析方法、装置及介质 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN116486150A (zh) | 一种基于不确定性感知的图像分类模型回归误差消减方法 | |
CN114224354B (zh) | 心律失常分类方法、装置及可读存储介质 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN117079017A (zh) | 可信的小样本图像识别分类方法 | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
CN115410250A (zh) | 阵列式人脸美丽预测方法、设备及存储介质 | |
Termritthikun et al. | Neural architecture search and multi-objective evolutionary algorithms for anomaly detection | |
JP6993250B2 (ja) | コンテンツ特徴量抽出装置、方法、及びプログラム | |
Amalia et al. | The Application of Modified K-Nearest Neighbor Algorithm for Classification of Groundwater Quality Based on Image Processing and pH, TDS, and Temperature Sensors | |
Anupama et al. | Intelligent Classification Model for Biomedical Pap Smear Images on IoT Environment. | |
CN116306773B (zh) | 一种可解释的神经网络高维数据降维分析系统 | |
Cao et al. | Alzheimer’s Disease Stage Detection Method Based on Convolutional Neural Network | |
Lin et al. | An attention-based ambient network with 3D convolutional network for incomplete traffic flow prediction | |
CN117197095B (zh) | 基于半监督生成对抗分割模型的表面缺陷检测方法和系统 | |
Soleimani et al. | Generic semi-supervised adversarial subject translation for sensor-based Human Activity Recognition | |
Liang et al. | Semi-Supervised Incremental Three-Way Decision Using Convolutional Neural Network | |
Fu et al. | Federated Transfer Learning for Soalr Flare Forecasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |