CN115147607A - 一种基于凸优化理论的抗噪声零样本图像分类方法 - Google Patents
一种基于凸优化理论的抗噪声零样本图像分类方法 Download PDFInfo
- Publication number
- CN115147607A CN115147607A CN202211078136.5A CN202211078136A CN115147607A CN 115147607 A CN115147607 A CN 115147607A CN 202211078136 A CN202211078136 A CN 202211078136A CN 115147607 A CN115147607 A CN 115147607A
- Authority
- CN
- China
- Prior art keywords
- visual
- category
- semantic
- picture
- mapping model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000000007 visual effect Effects 0.000 claims abstract description 135
- 238000013507 mapping Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 50
- 238000012360 testing method Methods 0.000 claims description 44
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 101100001678 Emericella variicolor andM gene Proteins 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于凸优化理论的抗噪声零样本图像分类方法,提取待分类图片的视觉特征,输入预先训练获得的视觉‑语义映射模型,预测输出待分类图片的类别语义属性;利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。预先训练获得视觉‑语义映射模型:构建视觉‑语义映射模型表达式;利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;使用凸凹迭代方法将求解鲁棒优化问题转化为求解一系列子优化问题;使用交替方向乘子法对子优化问题变量进行更新迭代,确定视觉‑语义映射模型中的相关参量,从而获得最终的视觉‑语义映射模型。
Description
技术领域
本发明涉及一种基于凸优化理论的抗噪声零样本图像分类方法,属于图像分类技术领域。
背景技术
对于图片识别来说,传统的模式识别方法需要使用大量的良好标记图片进行训练,以保证模型的泛化性能,但在许多现实场景中对细粒度图片样本进行标记往往需要专业的领域知识,因此,为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题,零样本学习(Zero Shot Learning,简称ZSL)得到越来越多的关注。
ZSL试图通过从已见类(有现成样本的类别)的标记样本中获取迁移知识,构建能够识别未见类(没有现成样本的类别,即零样本类)样本的分类模型。
2017年发表的Prototypical networks for few-shot learning[J]. Advancesin neural information processing systems, 2017, 30中提出了原型网络模型,原型网络将类别中的各样本映射到一个空间中,将每个类别的均值作为类别的原型。利用欧几里得距离作为度量,最小化每个类别与自身原型的距离,同时最大化其与其它类别原型的距离。作者将改模型应用到零样本学习中,取得了不错的成果。
2019年发表的Zero-shot learning via robust latent representation andmanifold regularization[J]. IEEE Transactions on Image Processing, 2018, 28(4): 1824-1836中提出了一个框架来同时学习潜在的特征子空间和跨模态嵌入模型,以将视觉特征与其语义表示联系起来。利用余弦相似度作为度量,使每个样本的语义输出与自身类别语义属性的相似度尽可能大,与其他类别语义属性的相似度尽可能小,并提出了一种基于图模型降噪的新型流形对齐策略,来提高模型对未见类样本的预测精度。使用交替方向乘子法求解,极大地提高了训练效率。
现有的零样本图像分类模型大多假设训练样本均拥有正确标签,鲜有针对标记噪声数据处理方面的研究。然而,如果某些已见类样本的类别标记错误,产生标记噪声,往往会产生较大的损失值,倘若直接最小化这些样本的损失值,会导致训练得到的模型产生偏差,降低其泛化性能。
发明内容
本发明所要解决的技术问题是克服现有技术中由于现有零样本数据标签多为专家手动标记或从词库中自动提取,其不可避免的产生标记噪声,尤其在一些样本数据不足且精度相当重要的军事、医疗和金融领域,标记噪声的存在会对结果产生无法估计的负面影响的缺陷,本发明提供基于凸优化理论的抗噪声零样本图像分类方法,降低标记噪声带来的误差,有效提高了视觉-语义映射模型的识别精度。
为达到上述目的,本发明提供一种基于凸优化理论的抗噪声零样本图像分类方法,包括:
获取待分类图片;
提取待分类图片的视觉特征;
将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型,输出待分类图片的类别语义属性;
利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。
优先地,预先训练获得视觉-语义映射模型,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性;
步骤(2),构建视觉-语义映射模型,将图片样本的视觉特征作为视觉-语义映射模型的输入,将图片样本的类别语义属性作为视觉-语义映射模型的输出;
利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值;
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,确定视觉-语义映射模型中的相关参量,从而获得最终的视觉-语义映射模型。
优先地,步骤(5),获取未见类测试集;
将未见类测试集输入最终的视觉-语义映射模型,获得未见类测试集的预测类别语义属性;
利用图模型降噪算法,将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,获得未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
优先地,步骤(2),构建视觉-语义映射模型,通过以下步骤实现:
视觉-语义映射模型的表达式为:
式中,y为图片样本的类别语义属性,W为潜在子空间到类别语义属性的投影矩阵,x为图片样本的视觉特征,Q为视觉特征到潜在子空间的投影矩阵,T为转置;
步骤(2),利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题,通过以下步骤实现:
建立类别语义属性空间的相似度模型,最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度;
在视觉-语义映射模型中添加一个潜在子空间,建立优化问题:
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,n为已见类训练集中的图片样本数量,cs为已见类训练集中已见类的数量,x i 为已见类训练集中第i个图片样本的视觉特征,y zi 为x i 所对应类别的类别语义属性,y j 为第j个已见类的类别语义属性,β 1和β 2为权系数,为W的F-范数,为Q的F-范数,T为转置,I为单位矩阵,X为已见类训练集中所有图片样本的视觉特征矩阵;
噪声鲁棒损失函数采用Ramp型损失函数,Ramp型损失函数的表达式为:
式中,u i 为因变量,t为设定的参数,L(u i )为Ramp型损失函数计算的损失值;
采用Ramp型损失函数更新公式(1)中的优化问题,得到鲁棒优化问题,鲁棒优化问题的表达式为:
优先地,步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值,通过以下步骤实现:
步骤(31),将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式:
将L(u i )分解为L 1(u i )+L 2(u i ),其中L 1(u i )=u i ,
步骤(32),采用凸凹迭代方法将求解公式(4)转化为求解一系列子优化问题,第k+1个子优化问题的表达式为:
步骤(33),第k+1个子优化问题的表达式进一步具体化为:
步骤(34),设k=0和λ 0=0;
步骤(35),求解公式(6);
步骤(36),若λ k 的相似度和λ k+1 的相似度均小于设定的子优化值,则结束运行,否则设置k的数值增加1,执行步骤(35)。
优先地,步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,从而确定视觉-语义映射模型中的相关参量,获得最终的视觉-语义映射模型,通过以下步骤实现:
步骤(41),公式(6)的增广拉格朗日函数为:
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,M 1和M 2为拉格朗日乘子,μ为惩罚参数,X为所有已见类训练集中的图片样本的矩阵,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,<*>为内积运算,tr(*)为矩阵的迹运算,λ k =,I为单位矩阵,β 1和β 2为权系数,为W的F-范数,为Q的F-范数;
步骤(42),固定P、Q、W、M 1、M 2和μ,更新视觉特征到类别语义属性的投影矩阵B:
步骤(43),采用拉格朗日乘子法求解公式(8),获得视觉特征到类别语义属性的投影矩阵B:
步骤(44),最小化公式(9),获得潜在子空间到视觉特征的逆投影矩阵P:
步骤(46),最小化公式(10),获得视觉特征到潜在子空间的投影矩阵Q:
令公式(10)中Q的梯度为0,得到关于Q的Sylvester方程:
步骤(47),最小化公式(12),获得潜在子空间到类别语义属性的投影矩阵W:
令式(12)中W的梯度为0,得到:
步骤(48),若P、Q和W在两次连续迭代中的变化量均分别小于定值,则结束运行,确定视觉-语义映射模型中的W和Q,获得最终的视觉-语义映射模型,否则M 1的数值增加μ(X-PQ T X),M 2的数值增加μ(QW-B),惩罚参数μ更新为min(μ max ,ρμ),ρ和μ max 为设定的参数,进入步骤(43)。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所达到的有益效果:
本发明提出一种基于凸优化方法的抗噪声零样本图像识别方法,针对零样本图像识别中的标记噪声问题提出一种有效的解决途径,通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法,降低已见类的图片样本的标记噪声样本带来的负面影响;
本发明在AWA数据集的已见类图片样本中加入一定比例的标记噪声,对比现有方法,噪声标记比例越高本方法在识别精度上的优势越明显;
特别地,在10%噪声标记时,本方法未见类测试精度比原方法高4.2%,在20%噪声标记时,精度差距高达12.1%。
附图说明
图1是本发明的流程图;
图2为本发明Ramp型损失函数的折线图;
图3为本发明Ramp型损失函数的分解函数1的折线图;
图4为本发明Ramp型损失函数的分解函数2的折线图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
本发明提供一种基于凸优化理论的抗噪声零样本图像分类方法,包括:
获取待分类图片;
提取待分类图片的视觉特征;
将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型,输出待分类图片的类别语义属性;
利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。
进一步地,本实施例中预先训练获得视觉-语义映射模型,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性;
步骤(2),构建视觉-语义映射模型,将图片样本的视觉特征作为视觉-语义映射模型的输入,将图片样本的类别语义属性作为视觉-语义映射模型的输出;
利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值;
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,确定视觉-语义映射模型中的相关参量,从而获得最终的视觉-语义映射模型。
进一步地,本实施例中步骤(5),获取未见类测试集;
将未见类测试集输入最终的视觉-语义映射模型,获得未见类测试集的预测类别语义属性;
利用图模型降噪算法,将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,获得未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
进一步地,本实施例中步骤(2),构建视觉-语义映射模型,通过以下步骤实现:
视觉-语义映射模型的表达式为:
式中,y为图片样本的类别语义属性,W为潜在子空间到类别语义属性的投影矩阵,x为图片样本的视觉特征,Q为视觉特征到潜在子空间的投影矩阵,T为转置;
步骤(2),利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题,通过以下步骤实现:
建立类别语义属性空间的相似度模型,最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度;
在视觉-语义映射模型中添加一个潜在子空间,建立优化问题:
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,n为已见类训练集中的图片样本数量,cs为已见类训练集中已见类的数量,x i 为已见类训练集中第i个图片样本的视觉特征,y zi 为x i 所对应类别的类别语义属性,y j 为第j个已见类的类别语义属性,β 1和β 2为权系数,为W的F-范数,为Q的F-范数,T为转置,I为单位矩阵,X为已见类训练集中所有图片样本的视觉特征矩阵;
噪声鲁棒损失函数采用Ramp型损失函数,Ramp型损失函数的表达式为:
式中,u i 为因变量,t为设定的参数,L(u i )为Ramp型损失函数计算的损失值;
采用Ramp型损失函数更新公式(1)中的优化问题,得到鲁棒优化问题,鲁棒优化问题的表达式为:
进一步地,本实施例中步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值,通过以下步骤实现:
步骤(31),将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式:
将L(u i )分解为L 1(u i )+L 2(u i ),其中L 1(u i )=u i ,
步骤(32),采用凸凹迭代方法将求解公式(4)转化为求解一系列子优化问题,第k+1个子优化问题的表达式为:
步骤(33),第k+1个子优化问题的表达式进一步具体化为:
步骤(34),设k=0和λ 0=0;
步骤(35),求解公式(6);
步骤(36),若λ k 的相似度和λ k+1 的相似度均小于设定的子优化值,则结束运行,否则设置k的数值增加1,执行步骤(35)。
进一步地,本实施例中步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,从而确定视觉-语义映射模型中的相关参量,获得最终的视觉-语义映射模型,通过以下步骤实现:
步骤(41),公式(6)的增广拉格朗日函数为:
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,M 1和M 2为拉格朗日乘子,μ为惩罚参数,X为所有已见类训练集中的图片样本的矩阵,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,<*>为内积运算,tr(*)为矩阵的迹运算,λ k =,I为单位矩阵,β 1和β 2为权系数,为W的F-范数,为Q的F-范数;
步骤(42),固定P、Q、W、M 1、M 2和μ,更新视觉特征到类别语义属性的投影矩阵B:
步骤(43),采用拉格朗日乘子法求解公式(8),获得视觉特征到类别语义属性的投影矩阵B:
步骤(44),最小化公式(9),获得潜在子空间到视觉特征的逆投影矩阵P:
步骤(46),最小化公式(10),获得视觉特征到潜在子空间的投影矩阵Q:
令公式(10)中Q的梯度为0,得到关于Q的Sylvester方程:
步骤(47),最小化公式(12),获得潜在子空间到类别语义属性的投影矩阵W:
令式(12)中W的梯度为0,得到:
步骤(48),若P、Q和W在两次连续迭代中的变化量均分别小于定值,则结束运行,确定视觉-语义映射模型中的W和Q,获得最终的视觉-语义映射模型,否则M 1的数值增加μ(X-PQ T X),M 2的数值增加μ(QW-B),惩罚参数μ更新为min(μ max ,ρμ),ρ和μ max 为设定的参数,进入步骤(43)。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
以AWA数据集为例,该数据集包含50个类别,共30485张图片样本,其中每个类别至少92张图片样本,每个类别都对应一个85维的类别语义属性向量。本发明将50个类别中的40个类别作为已见类,10个类别作为未见类。在已见类的图片样本中随机取19852个图片样本组成已见类训练集,在未见类的图片样本中随机取5685个图片样本组成未见类测试集。
获取已见类训练集的视觉特征和未见类测试集的视觉特征,通过以下步骤实现:
采用ResNet101模型对已见类训练集和未见类测试集中的图片样本进行视觉特征提取,获得视觉特征;
视觉特征提取后视觉特征的维度为2048。
实施例二
本发明提出一种基于凸优化理论的零样本图像分类方法,针对零样本分类中出现的标记噪声问题,其主要思想是引入CCCP更新框架来解决损失函数非凸问题,并使用ADMM方法高效更新,通过加入Ramp型损失函数降低异常噪声对模型影响,增强其泛化能力。通过使用基于图模型降噪的流形对齐方法,提升了本发明算法对未见类预测的精度。本发明较好地解决了零样本学习中的标记噪声问题,对比已有方法,提高了在带噪声标记数据集上的识别精度。
如图1所示,本发明利用一个语义嵌入空间来嵌入已见类视觉向量、未类别视觉向量、已见类标签和未类别标签。语义嵌入空间中的语义向量都是预先设定的辅助信息,既可以是手动定义的属性向量,也可以是从辅助文本中自动提取的词向量。
获取已见类训练集的视觉特征,通过以下步骤实现:
采用ResNet101模型对已见类训练集中的图片样本进行视觉特征提取,获得已见类训练集的视觉特征;提取后视觉特征的维度为2048。
获取未见类测试集的视觉特征,通过以下步骤实现:
采用ResNet101模型对未见类测试集中的图片样本进行视觉特征提取,获得未见类测试集的视觉特征;提取后视觉特征的维度为2048。
在本发明中,采用人为加入标记噪声来模拟现实中出现的噪声,通过加入不同数量的标记噪声来模拟不同场景。为了不失一般性,本发明采用Cosine相似度作为类别语义属性空间的度量标准。对于一个已见类的图片样本,加入噪声的方法是:
首先计算已见类的图片样本的原有标注类别的类别语义属性与其他已见类的类别语义属性之间的相似度,然后,在其他已见类中找到相似度最小的已见类,并用相似度最小的已见类取代原有标注类别。在这种极端噪声环境下更能凸显出本发明的抗噪声性能。
图2为本发明Ramp型损失函数的折线图,图3为本发明Ramp型损失函数的分解函数1的折线图,图4为本发明Ramp型损失函数的分解函数2的折线图。本发明对AWA数据集加入不同比例的最大噪声进行实验,实验结果与不使用抗噪声技术的零样本学习方法(Zero-shot learning via robust latent representation and manifold regularization[J]. IEEE Transactions on Image Processing, 2018, 28(4): 1824-1836.)进行对比,实验结果如表1所示:
表1:未见类测试集的实验精度对比表
从实验结果可以看出,本发明所提出的抗噪声零样本图像分类方法显著提高了噪声数据集分类任务的精度。从表1中可以发现,在无噪声样本上,本方法提升有2%,但随着噪声的增多,本方法优势凸显,抗噪声效果更好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (8)
1.一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,包括:
获取待分类图片;
提取待分类图片的视觉特征;
将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型,输出待分类图片的类别语义属性;
利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。
2.根据权利要求1所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
预先训练获得视觉-语义映射模型,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性;
步骤(2),构建视觉-语义映射模型,将图片样本的视觉特征作为视觉-语义映射模型的输入,将图片样本的类别语义属性作为视觉-语义映射模型的输出;
利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值;
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,确定视觉-语义映射模型中的相关参量,从而获得最终的视觉-语义映射模型。
3.根据权利要求2所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(5),获取未见类测试集;
将未见类测试集输入最终的视觉-语义映射模型,获得未见类测试集的预测类别语义属性;
利用图模型降噪算法,将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,获得未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
4.根据权利要求2所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(2),构建视觉-语义映射模型,通过以下步骤实现:
视觉-语义映射模型的表达式为:
式中,y为图片样本的类别语义属性,W为潜在子空间到类别语义属性的投影矩阵,x为图片样本的视觉特征,Q为视觉特征到潜在子空间的投影矩阵,T为转置;
步骤(2),利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题,通过以下步骤实现:
建立类别语义属性空间的相似度模型,最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度;
在视觉-语义映射模型中添加一个潜在子空间,建立优化问题:
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,n为已见类训练集中的图片样本数量,cs为已见类训练集中已见类的数量,x i 为已见类训练集中第i个图片样本的视觉特征,y zi 为x i 所对应类别的类别语义属性,y j 为第j个已见类的类别语义属性,β 1和β 2为权系数,为W的F-范数,为Q的F-范数,T为转置,I为单位矩阵,X为已见类训练集中所有图片样本的视觉特征矩阵;
噪声鲁棒损失函数采用Ramp型损失函数,Ramp型损失函数的表达式为:
式中,u i 为因变量,t为设定的参数,L(u i )为Ramp型损失函数计算的损失值;
采用Ramp型损失函数更新公式(1)中的优化问题,得到鲁棒优化问题,鲁棒优化问题的表达式为:
5.根据权利要求4所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值,通过以下步骤实现:
步骤(31),将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式:
将L(u i )分解为L 1(u i )+L 2(u i ),其中L 1(u i )=u i ,
步骤(32),采用凸凹迭代方法将求解公式(4)转化为求解一系列子优化问题,第k+1个子优化问题的表达式为:
步骤(33),第k+1个子优化问题的表达式进一步具体化为:
步骤(34),设k=0和λ 0=0;
步骤(35),求解公式(6);
步骤(36),若λ k 的相似度和λ k+1 的相似度均小于设定的子优化值,则结束运行,否则设置k的数值增加1,执行步骤(35)。
6.根据权利要求5所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,从而确定视觉-语义映射模型中的相关参量,获得最终的视觉-语义映射模型,通过以下步骤实现:
步骤(41),公式(6)的增广拉格朗日函数为:
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,M 1和M 2为拉格朗日乘子,μ为惩罚参数,X为所有已见类训练集中的图片样本的矩阵,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,<*>为内积运算,tr(*)为矩阵的迹运算,λ k =,I为单位矩阵,β 1和β 2为权系数,为W的F-范数,为Q的F-范数;
步骤(42),固定P、Q、W、M 1、M 2和μ,更新视觉特征到类别语义属性的投影矩阵B:
步骤(43),采用拉格朗日乘子法求解公式(8),获得视觉特征到类别语义属性的投影矩阵B:
步骤(44),最小化公式(9),获得潜在子空间到视觉特征的逆投影矩阵P:
步骤(46),最小化公式(10),获得视觉特征到潜在子空间的投影矩阵Q:
令公式(10)中Q的梯度为0,得到关于Q的Sylvester方程:
步骤(47),最小化公式(12),获得潜在子空间到类别语义属性的投影矩阵W:
令式(12)中W的梯度为0,得到:
步骤(48),若P、Q和W在两次连续迭代中的变化量均分别小于定值,则结束运行,确定视觉-语义映射模型中的W和Q,获得最终的视觉-语义映射模型,否则M 1的数值增加μ(X-PQ T X),M 2的数值增加μ(QW-B),惩罚参数μ更新为min(μ max ,ρμ),ρ和μ max 为设定的参数,进入步骤(43)。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211078136.5A CN115147607A (zh) | 2022-09-05 | 2022-09-05 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211078136.5A CN115147607A (zh) | 2022-09-05 | 2022-09-05 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115147607A true CN115147607A (zh) | 2022-10-04 |
Family
ID=83416605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211078136.5A Pending CN115147607A (zh) | 2022-09-05 | 2022-09-05 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147607A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424096A (zh) * | 2022-11-08 | 2022-12-02 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
CN116051909A (zh) * | 2023-03-06 | 2023-05-02 | 中国科学技术大学 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
CN117237748A (zh) * | 2023-11-14 | 2023-12-15 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
CN117333778A (zh) * | 2023-12-01 | 2024-01-02 | 华南理工大学 | 用于植物科普教育的基于知识图谱的零样本植物识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334613A (zh) * | 2019-06-19 | 2019-10-15 | 杭州电子科技大学 | 一种鲁棒的漏油海域识别方法 |
CN112487193A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于自编码器的零样本图片分类方法 |
CN114821196A (zh) * | 2022-06-08 | 2022-07-29 | 安徽大学 | 零样本图像识别方法及其识别装置、介质与计算机终端 |
-
2022
- 2022-09-05 CN CN202211078136.5A patent/CN115147607A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334613A (zh) * | 2019-06-19 | 2019-10-15 | 杭州电子科技大学 | 一种鲁棒的漏油海域识别方法 |
CN112487193A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于自编码器的零样本图片分类方法 |
CN114821196A (zh) * | 2022-06-08 | 2022-07-29 | 安徽大学 | 零样本图像识别方法及其识别装置、介质与计算机终端 |
Non-Patent Citations (2)
Title |
---|
MIN MENG等: ""Zero-Shot Learning via Robust Latent Representation and Manifold Regularization"", 《ARXIV》 * |
QIAN WANG等: ""Concave-Convex Programming for Ramp Loss-Based MaximumMargin and Minimum Volume Twin Spheres Machine"", 《SPRINGER》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424096A (zh) * | 2022-11-08 | 2022-12-02 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
CN115424096B (zh) * | 2022-11-08 | 2023-01-31 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
CN116051909A (zh) * | 2023-03-06 | 2023-05-02 | 中国科学技术大学 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
CN117237748A (zh) * | 2023-11-14 | 2023-12-15 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
CN117237748B (zh) * | 2023-11-14 | 2024-02-23 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
CN117333778A (zh) * | 2023-12-01 | 2024-01-02 | 华南理工大学 | 用于植物科普教育的基于知识图谱的零样本植物识别方法 |
CN117333778B (zh) * | 2023-12-01 | 2024-03-12 | 华南理工大学 | 用于植物科普教育的基于知识图谱的零样本植物识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115995B (zh) | 一种基于半监督学习的图像多标签分类方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN115147607A (zh) | 一种基于凸优化理论的抗噪声零样本图像分类方法 | |
CN105138973B (zh) | 人脸认证的方法和装置 | |
CN107341510B (zh) | 基于稀疏正交的双图非负矩阵分解的图像聚类方法 | |
CN110837846A (zh) | 一种图像识别模型的构建方法、图像识别方法及装置 | |
CN111428557A (zh) | 基于神经网络模型的手写签名的自动校验的方法和装置 | |
CN105335756A (zh) | 一种鲁棒学习模型与图像分类系统 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN107832747B (zh) | 一种基于低秩字典学习算法的人脸识别方法 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
Dixit et al. | Object based scene representations using fisher scores of local subspace projections | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
Luhman et al. | Diffusion models for handwriting generation | |
CN114998602A (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
CN114373097A (zh) | 一种基于无监督的图像分类方法、终端设备及存储介质 | |
CN117058437B (zh) | 一种基于知识蒸馏的花卉分类方法、系统、设备及介质 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
Liu et al. | Multi-digit recognition with convolutional neural network and long short-term memory | |
CN114330535B (zh) | 一种基于支持向量正则化字典对学习的模式分类方法 | |
CN113592045B (zh) | 从印刷体到手写体的模型自适应文本识别方法和系统 | |
CN115797642A (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 | |
CN116955138A (zh) | 一种验收方法、装置、设备及存储介质 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN112836763A (zh) | 一种图结构数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221004 |
|
RJ01 | Rejection of invention patent application after publication |