CN115147607A - 一种基于凸优化理论的抗噪声零样本图像分类方法 - Google Patents

一种基于凸优化理论的抗噪声零样本图像分类方法 Download PDF

Info

Publication number
CN115147607A
CN115147607A CN202211078136.5A CN202211078136A CN115147607A CN 115147607 A CN115147607 A CN 115147607A CN 202211078136 A CN202211078136 A CN 202211078136A CN 115147607 A CN115147607 A CN 115147607A
Authority
CN
China
Prior art keywords
visual
category
semantic
picture
mapping model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211078136.5A
Other languages
English (en)
Inventor
汤龙
赵攀
潘志庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211078136.5A priority Critical patent/CN115147607A/zh
Publication of CN115147607A publication Critical patent/CN115147607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开基于凸优化理论的抗噪声零样本图像分类方法,提取待分类图片的视觉特征,输入预先训练获得的视觉‑语义映射模型,预测输出待分类图片的类别语义属性;利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。预先训练获得视觉‑语义映射模型:构建视觉‑语义映射模型表达式;利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;使用凸凹迭代方法将求解鲁棒优化问题转化为求解一系列子优化问题;使用交替方向乘子法对子优化问题变量进行更新迭代,确定视觉‑语义映射模型中的相关参量,从而获得最终的视觉‑语义映射模型。

Description

一种基于凸优化理论的抗噪声零样本图像分类方法
技术领域
本发明涉及一种基于凸优化理论的抗噪声零样本图像分类方法,属于图像分类技术领域。
背景技术
对于图片识别来说,传统的模式识别方法需要使用大量的良好标记图片进行训练,以保证模型的泛化性能,但在许多现实场景中对细粒度图片样本进行标记往往需要专业的领域知识,因此,为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题,零样本学习(Zero Shot Learning,简称ZSL)得到越来越多的关注。
ZSL试图通过从已见类(有现成样本的类别)的标记样本中获取迁移知识,构建能够识别未见类(没有现成样本的类别,即零样本类)样本的分类模型。
2017年发表的Prototypical networks for few-shot learning[J]. Advancesin neural information processing systems, 2017, 30中提出了原型网络模型,原型网络将类别中的各样本映射到一个空间中,将每个类别的均值作为类别的原型。利用欧几里得距离作为度量,最小化每个类别与自身原型的距离,同时最大化其与其它类别原型的距离。作者将改模型应用到零样本学习中,取得了不错的成果。
2019年发表的Zero-shot learning via robust latent representation andmanifold regularization[J]. IEEE Transactions on Image Processing, 2018, 28(4): 1824-1836中提出了一个框架来同时学习潜在的特征子空间和跨模态嵌入模型,以将视觉特征与其语义表示联系起来。利用余弦相似度作为度量,使每个样本的语义输出与自身类别语义属性的相似度尽可能大,与其他类别语义属性的相似度尽可能小,并提出了一种基于图模型降噪的新型流形对齐策略,来提高模型对未见类样本的预测精度。使用交替方向乘子法求解,极大地提高了训练效率。
现有的零样本图像分类模型大多假设训练样本均拥有正确标签,鲜有针对标记噪声数据处理方面的研究。然而,如果某些已见类样本的类别标记错误,产生标记噪声,往往会产生较大的损失值,倘若直接最小化这些样本的损失值,会导致训练得到的模型产生偏差,降低其泛化性能。
发明内容
本发明所要解决的技术问题是克服现有技术中由于现有零样本数据标签多为专家手动标记或从词库中自动提取,其不可避免的产生标记噪声,尤其在一些样本数据不足且精度相当重要的军事、医疗和金融领域,标记噪声的存在会对结果产生无法估计的负面影响的缺陷,本发明提供基于凸优化理论的抗噪声零样本图像分类方法,降低标记噪声带来的误差,有效提高了视觉-语义映射模型的识别精度。
为达到上述目的,本发明提供一种基于凸优化理论的抗噪声零样本图像分类方法,包括:
获取待分类图片;
提取待分类图片的视觉特征;
将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型,输出待分类图片的类别语义属性;
利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。
优先地,预先训练获得视觉-语义映射模型,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性;
步骤(2),构建视觉-语义映射模型,将图片样本的视觉特征作为视觉-语义映射模型的输入,将图片样本的类别语义属性作为视觉-语义映射模型的输出;
利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值;
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,确定视觉-语义映射模型中的相关参量,从而获得最终的视觉-语义映射模型。
优先地,步骤(5),获取未见类测试集;
将未见类测试集输入最终的视觉-语义映射模型,获得未见类测试集的预测类别语义属性;
利用图模型降噪算法,将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,获得未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
优先地,步骤(2),构建视觉-语义映射模型,通过以下步骤实现:
视觉-语义映射模型的表达式为:
Figure 957967DEST_PATH_IMAGE002
式中,y为图片样本的类别语义属性,W为潜在子空间到类别语义属性的投影矩阵,x为图片样本的视觉特征,Q为视觉特征到潜在子空间的投影矩阵,T为转置;
步骤(2),利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题,通过以下步骤实现:
建立类别语义属性空间的相似度模型,最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度;
在视觉-语义映射模型中添加一个潜在子空间,建立优化问题:
Figure 781567DEST_PATH_IMAGE004
(1)
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,n为已见类训练集中的图片样本数量,cs为已见类训练集中已见类的数量,x i 为已见类训练集中第i个图片样本的视觉特征,y zi x i 所对应类别的类别语义属性,y j 为第j个已见类的类别语义属性,β 1β 2为权系数,
Figure 373085DEST_PATH_IMAGE006
WF-范数,
Figure 598530DEST_PATH_IMAGE008
QF-范数,T为转置,I为单位矩阵,X为已见类训练集中所有图片样本的视觉特征矩阵;
噪声鲁棒损失函数采用Ramp型损失函数,Ramp型损失函数的表达式为:
Figure 46829DEST_PATH_IMAGE010
(2),
Figure 826566DEST_PATH_IMAGE012
(3);
式中,u i 为因变量,t为设定的参数,Lu i )为Ramp型损失函数计算的损失值;
采用Ramp型损失函数更新公式(1)中的优化问题,得到鲁棒优化问题,鲁棒优化问题的表达式为:
Figure 503666DEST_PATH_IMAGE014
Figure 849197DEST_PATH_IMAGE016
(4)。
优先地,步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值,通过以下步骤实现:
步骤(31),将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式:
Lu i )分解为L 1u i )+L 2u i ),其中L 1u i )=u i
Figure 468397DEST_PATH_IMAGE018
步骤(32),采用凸凹迭代方法将求解公式(4)转化为求解一系列子优化问题,第k+1个子优化问题的表达式为:
Figure 469851DEST_PATH_IMAGE020
(5),
式中,
Figure 199910DEST_PATH_IMAGE022
L 2u i )在
Figure 649214DEST_PATH_IMAGE024
处的梯度;
步骤(33),第k+1个子优化问题的表达式进一步具体化为:
Figure 642578DEST_PATH_IMAGE026
(6),
式中,tr(*)为矩阵的迹运算,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵;
Figure 662487DEST_PATH_IMAGE028
的每一列均为所有已见类的类别语义属性的平均值,
Figure 461816DEST_PATH_IMAGE028
的列数为已见类训练集中的图片样本数量,λ k =
Figure 516359DEST_PATH_IMAGE030
步骤(34),设k=0和λ 0=0;
步骤(35),求解公式(6);
步骤(36),若λ k 的相似度和λ k+1 的相似度均小于设定的子优化值,则结束运行,否则设置k的数值增加1,执行步骤(35)。
优先地,步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,从而确定视觉-语义映射模型中的相关参量,获得最终的视觉-语义映射模型,通过以下步骤实现:
步骤(41),公式(6)的增广拉格朗日函数为:
Figure 415045DEST_PATH_IMAGE032
Figure 938561DEST_PATH_IMAGE034
Figure 276002DEST_PATH_IMAGE036
(7),
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,M 1M 2为拉格朗日乘子,μ为惩罚参数,X为所有已见类训练集中的图片样本的矩阵,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵,
Figure 388314DEST_PATH_IMAGE038
的每一列均为所有已见类的类别语义属性的平均值,<*>为内积运算,tr(*)为矩阵的迹运算,λ k =
Figure 520218DEST_PATH_IMAGE030
I为单位矩阵,β 1β 2为权系数,
Figure 780299DEST_PATH_IMAGE006
WF-范数,
Figure 859113DEST_PATH_IMAGE008
QF-范数;
步骤(42),固定PQWM 1M 2μ,更新视觉特征到类别语义属性的投影矩阵B
Figure 137516DEST_PATH_IMAGE040
(8),
步骤(43),采用拉格朗日乘子法求解公式(8),获得视觉特征到类别语义属性的投影矩阵B
Figure 174743DEST_PATH_IMAGE042
步骤(44),最小化公式(9),获得潜在子空间到视觉特征的逆投影矩阵P
Figure 187698DEST_PATH_IMAGE044
(9),
步骤(45),令
Figure 804624DEST_PATH_IMAGE046
,通过奇异值分解计算HX T Q=USV T U、SV分别为奇异值分解的矩阵得到P=UV T ;
步骤(46),最小化公式(10),获得视觉特征到潜在子空间的投影矩阵Q
Figure 688266DEST_PATH_IMAGE048
(10),
令公式(10)中Q的梯度为0,得到关于Q的Sylvester方程:
Figure 912706DEST_PATH_IMAGE050
(11)
其中,
Figure 85061DEST_PATH_IMAGE052
步骤(47),最小化公式(12),获得潜在子空间到类别语义属性的投影矩阵W
Figure 302416DEST_PATH_IMAGE054
(12)
令式(12)中W的梯度为0,得到:
Figure 306144DEST_PATH_IMAGE056
(13),
步骤(48),若P、QW在两次连续迭代中的变化量均分别小于定值,则结束运行,确定视觉-语义映射模型中的WQ,获得最终的视觉-语义映射模型,否则M 1的数值增加μX-PQ T X),M 2的数值增加μQW-B),惩罚参数μ更新为min(μ max ,ρμ),ρμ max 为设定的参数,进入步骤(43)。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所达到的有益效果:
本发明提出一种基于凸优化方法的抗噪声零样本图像识别方法,针对零样本图像识别中的标记噪声问题提出一种有效的解决途径,通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法,降低已见类的图片样本的标记噪声样本带来的负面影响;
本发明在AWA数据集的已见类图片样本中加入一定比例的标记噪声,对比现有方法,噪声标记比例越高本方法在识别精度上的优势越明显;
特别地,在10%噪声标记时,本方法未见类测试精度比原方法高4.2%,在20%噪声标记时,精度差距高达12.1%。
附图说明
图1是本发明的流程图;
图2为本发明Ramp型损失函数的折线图;
图3为本发明Ramp型损失函数的分解函数1的折线图;
图4为本发明Ramp型损失函数的分解函数2的折线图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
本发明提供一种基于凸优化理论的抗噪声零样本图像分类方法,包括:
获取待分类图片;
提取待分类图片的视觉特征;
将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型,输出待分类图片的类别语义属性;
利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。
进一步地,本实施例中预先训练获得视觉-语义映射模型,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性;
步骤(2),构建视觉-语义映射模型,将图片样本的视觉特征作为视觉-语义映射模型的输入,将图片样本的类别语义属性作为视觉-语义映射模型的输出;
利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值;
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,确定视觉-语义映射模型中的相关参量,从而获得最终的视觉-语义映射模型。
进一步地,本实施例中步骤(5),获取未见类测试集;
将未见类测试集输入最终的视觉-语义映射模型,获得未见类测试集的预测类别语义属性;
利用图模型降噪算法,将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,获得未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
进一步地,本实施例中步骤(2),构建视觉-语义映射模型,通过以下步骤实现:
视觉-语义映射模型的表达式为:
Figure 950752DEST_PATH_IMAGE002
式中,y为图片样本的类别语义属性,W为潜在子空间到类别语义属性的投影矩阵,x为图片样本的视觉特征,Q为视觉特征到潜在子空间的投影矩阵,T为转置;
步骤(2),利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题,通过以下步骤实现:
建立类别语义属性空间的相似度模型,最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度;
在视觉-语义映射模型中添加一个潜在子空间,建立优化问题:
Figure 610403DEST_PATH_IMAGE004
(1)
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,n为已见类训练集中的图片样本数量,cs为已见类训练集中已见类的数量,x i 为已见类训练集中第i个图片样本的视觉特征,y zi x i 所对应类别的类别语义属性,y j 为第j个已见类的类别语义属性,β 1β 2为权系数,
Figure 880716DEST_PATH_IMAGE006
WF-范数,
Figure 738951DEST_PATH_IMAGE008
QF-范数,T为转置,I为单位矩阵,X为已见类训练集中所有图片样本的视觉特征矩阵;
噪声鲁棒损失函数采用Ramp型损失函数,Ramp型损失函数的表达式为:
Figure 757722DEST_PATH_IMAGE010
(2),
Figure 435829DEST_PATH_IMAGE012
(3);
式中,u i 为因变量,t为设定的参数,Lu i )为Ramp型损失函数计算的损失值;
采用Ramp型损失函数更新公式(1)中的优化问题,得到鲁棒优化问题,鲁棒优化问题的表达式为:
Figure 260565DEST_PATH_IMAGE014
Figure 255197DEST_PATH_IMAGE016
(4)。
进一步地,本实施例中步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值,通过以下步骤实现:
步骤(31),将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式:
Lu i )分解为L 1u i )+L 2u i ),其中L 1u i )=u i
Figure 444870DEST_PATH_IMAGE018
步骤(32),采用凸凹迭代方法将求解公式(4)转化为求解一系列子优化问题,第k+1个子优化问题的表达式为:
Figure 875851DEST_PATH_IMAGE020
(5),
式中,
Figure 238699DEST_PATH_IMAGE022
L 2u i )在
Figure 9209DEST_PATH_IMAGE024
处的梯度;
步骤(33),第k+1个子优化问题的表达式进一步具体化为:
Figure 439226DEST_PATH_IMAGE026
(6),
式中,tr(*)为矩阵的迹运算,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵;
Figure 357504DEST_PATH_IMAGE028
的每一列均为所有已见类的类别语义属性的平均值,
Figure 461726DEST_PATH_IMAGE028
的列数为已见类训练集中的图片样本数量,λ k =
Figure 149059DEST_PATH_IMAGE030
步骤(34),设k=0和λ 0=0;
步骤(35),求解公式(6);
步骤(36),若λ k 的相似度和λ k+1 的相似度均小于设定的子优化值,则结束运行,否则设置k的数值增加1,执行步骤(35)。
进一步地,本实施例中步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,从而确定视觉-语义映射模型中的相关参量,获得最终的视觉-语义映射模型,通过以下步骤实现:
步骤(41),公式(6)的增广拉格朗日函数为:
Figure 742852DEST_PATH_IMAGE032
Figure 86108DEST_PATH_IMAGE034
Figure 541492DEST_PATH_IMAGE036
(7),
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,M 1M 2为拉格朗日乘子,μ为惩罚参数,X为所有已见类训练集中的图片样本的矩阵,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵,
Figure 83331DEST_PATH_IMAGE038
的每一列均为所有已见类的类别语义属性的平均值,<*>为内积运算,tr(*)为矩阵的迹运算,λ k =
Figure 785708DEST_PATH_IMAGE030
I为单位矩阵,β 1β 2为权系数,
Figure 412998DEST_PATH_IMAGE006
WF-范数,
Figure 921340DEST_PATH_IMAGE008
QF-范数;
步骤(42),固定PQWM 1M 2μ,更新视觉特征到类别语义属性的投影矩阵B
Figure 832533DEST_PATH_IMAGE040
(8),
步骤(43),采用拉格朗日乘子法求解公式(8),获得视觉特征到类别语义属性的投影矩阵B
Figure 705811DEST_PATH_IMAGE042
步骤(44),最小化公式(9),获得潜在子空间到视觉特征的逆投影矩阵P
Figure 820398DEST_PATH_IMAGE044
(9),
步骤(45),令
Figure 866851DEST_PATH_IMAGE046
,通过奇异值分解计算HX T Q=USV T U、SV分别为奇异值分解的矩阵得到P=UV T ;
步骤(46),最小化公式(10),获得视觉特征到潜在子空间的投影矩阵Q
Figure 586546DEST_PATH_IMAGE048
(10),
令公式(10)中Q的梯度为0,得到关于Q的Sylvester方程:
Figure 427463DEST_PATH_IMAGE050
(11)
其中,
Figure 780078DEST_PATH_IMAGE052
步骤(47),最小化公式(12),获得潜在子空间到类别语义属性的投影矩阵W
Figure 567905DEST_PATH_IMAGE054
(12)
令式(12)中W的梯度为0,得到:
Figure 938844DEST_PATH_IMAGE056
(13),
步骤(48),若P、QW在两次连续迭代中的变化量均分别小于定值,则结束运行,确定视觉-语义映射模型中的WQ,获得最终的视觉-语义映射模型,否则M 1的数值增加μX-PQ T X),M 2的数值增加μQW-B),惩罚参数μ更新为min(μ max ,ρμ),ρμ max 为设定的参数,进入步骤(43)。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
以AWA数据集为例,该数据集包含50个类别,共30485张图片样本,其中每个类别至少92张图片样本,每个类别都对应一个85维的类别语义属性向量。本发明将50个类别中的40个类别作为已见类,10个类别作为未见类。在已见类的图片样本中随机取19852个图片样本组成已见类训练集,在未见类的图片样本中随机取5685个图片样本组成未见类测试集。
获取已见类训练集的视觉特征和未见类测试集的视觉特征,通过以下步骤实现:
采用ResNet101模型对已见类训练集和未见类测试集中的图片样本进行视觉特征提取,获得视觉特征;
视觉特征提取后视觉特征的维度为2048。
实施例二
本发明提出一种基于凸优化理论的零样本图像分类方法,针对零样本分类中出现的标记噪声问题,其主要思想是引入CCCP更新框架来解决损失函数非凸问题,并使用ADMM方法高效更新,通过加入Ramp型损失函数降低异常噪声对模型影响,增强其泛化能力。通过使用基于图模型降噪的流形对齐方法,提升了本发明算法对未见类预测的精度。本发明较好地解决了零样本学习中的标记噪声问题,对比已有方法,提高了在带噪声标记数据集上的识别精度。
如图1所示,本发明利用一个语义嵌入空间来嵌入已见类视觉向量、未类别视觉向量、已见类标签和未类别标签。语义嵌入空间中的语义向量都是预先设定的辅助信息,既可以是手动定义的属性向量,也可以是从辅助文本中自动提取的词向量。
获取已见类训练集的视觉特征,通过以下步骤实现:
采用ResNet101模型对已见类训练集中的图片样本进行视觉特征提取,获得已见类训练集的视觉特征;提取后视觉特征的维度为2048。
获取未见类测试集的视觉特征,通过以下步骤实现:
采用ResNet101模型对未见类测试集中的图片样本进行视觉特征提取,获得未见类测试集的视觉特征;提取后视觉特征的维度为2048。
在本发明中,采用人为加入标记噪声来模拟现实中出现的噪声,通过加入不同数量的标记噪声来模拟不同场景。为了不失一般性,本发明采用Cosine相似度作为类别语义属性空间的度量标准。对于一个已见类的图片样本,加入噪声的方法是:
首先计算已见类的图片样本的原有标注类别的类别语义属性与其他已见类的类别语义属性之间的相似度,然后,在其他已见类中找到相似度最小的已见类,并用相似度最小的已见类取代原有标注类别。在这种极端噪声环境下更能凸显出本发明的抗噪声性能。
图2为本发明Ramp型损失函数的折线图,图3为本发明Ramp型损失函数的分解函数1的折线图,图4为本发明Ramp型损失函数的分解函数2的折线图。本发明对AWA数据集加入不同比例的最大噪声进行实验,实验结果与不使用抗噪声技术的零样本学习方法(Zero-shot learning via robust latent representation and manifold regularization[J]. IEEE Transactions on Image Processing, 2018, 28(4): 1824-1836.)进行对比,实验结果如表1所示:
表1:未见类测试集的实验精度对比表
Figure 216241DEST_PATH_IMAGE058
从实验结果可以看出,本发明所提出的抗噪声零样本图像分类方法显著提高了噪声数据集分类任务的精度。从表1中可以发现,在无噪声样本上,本方法提升有2%,但随着噪声的增多,本方法优势凸显,抗噪声效果更好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,包括:
获取待分类图片;
提取待分类图片的视觉特征;
将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型,输出待分类图片的类别语义属性;
利用图模型降噪算法,将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐,获得最终的待分类图片的类别语义属性。
2.根据权利要求1所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
预先训练获得视觉-语义映射模型,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性;
步骤(2),构建视觉-语义映射模型,将图片样本的视觉特征作为视觉-语义映射模型的输入,将图片样本的类别语义属性作为视觉-语义映射模型的输出;
利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题;
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值;
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,确定视觉-语义映射模型中的相关参量,从而获得最终的视觉-语义映射模型。
3.根据权利要求2所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(5),获取未见类测试集;
将未见类测试集输入最终的视觉-语义映射模型,获得未见类测试集的预测类别语义属性;
利用图模型降噪算法,将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,获得未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
4.根据权利要求2所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(2),构建视觉-语义映射模型,通过以下步骤实现:
视觉-语义映射模型的表达式为:
Figure 168445DEST_PATH_IMAGE001
式中,y为图片样本的类别语义属性,W为潜在子空间到类别语义属性的投影矩阵,x为图片样本的视觉特征,Q为视觉特征到潜在子空间的投影矩阵,T为转置;
步骤(2),利用类别语义属性空间相似度和噪声鲁棒损失函数,建立鲁棒优化问题,通过以下步骤实现:
建立类别语义属性空间的相似度模型,最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度;
在视觉-语义映射模型中添加一个潜在子空间,建立优化问题:
Figure 890413DEST_PATH_IMAGE002
(1)
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,n为已见类训练集中的图片样本数量,cs为已见类训练集中已见类的数量,x i 为已见类训练集中第i个图片样本的视觉特征,y zi x i 所对应类别的类别语义属性,y j 为第j个已见类的类别语义属性,β 1β 2为权系数,
Figure 380301DEST_PATH_IMAGE003
WF-范数,
Figure 238535DEST_PATH_IMAGE004
QF-范数,T为转置,I为单位矩阵,X为已见类训练集中所有图片样本的视觉特征矩阵;
噪声鲁棒损失函数采用Ramp型损失函数,Ramp型损失函数的表达式为:
Figure 804777DEST_PATH_IMAGE006
(2),
Figure 14041DEST_PATH_IMAGE007
(3);
式中,u i 为因变量,t为设定的参数,Lu i )为Ramp型损失函数计算的损失值;
采用Ramp型损失函数更新公式(1)中的优化问题,得到鲁棒优化问题,鲁棒优化问题的表达式为:
Figure 307619DEST_PATH_IMAGE008
Figure 754781DEST_PATH_IMAGE009
(4)。
5.根据权利要求4所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(3),使用凸凹迭代方法,将求解鲁棒优化问题转化为求解一系列子优化问题,直至连续两次子优化问题的相似度小于设定的子优化值,通过以下步骤实现:
步骤(31),将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式:
Lu i )分解为L 1u i )+L 2u i ),其中L 1u i )=u i
Figure 990459DEST_PATH_IMAGE010
步骤(32),采用凸凹迭代方法将求解公式(4)转化为求解一系列子优化问题,第k+1个子优化问题的表达式为:
Figure 155861DEST_PATH_IMAGE011
(5),
式中,
Figure 253130DEST_PATH_IMAGE012
L 2u i )在
Figure 820378DEST_PATH_IMAGE013
处的梯度;
步骤(33),第k+1个子优化问题的表达式进一步具体化为:
Figure 712111DEST_PATH_IMAGE014
(6),
式中,tr(*)为矩阵的迹运算,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵;
Figure 381121DEST_PATH_IMAGE015
的每一列均为所有已见类的类别语义属性的平均值,
Figure 750922DEST_PATH_IMAGE015
的列数为已见类训练集中的图片样本数量,λ k =
Figure 438255DEST_PATH_IMAGE016
步骤(34),设k=0和λ 0=0;
步骤(35),求解公式(6);
步骤(36),若λ k 的相似度和λ k+1 的相似度均小于设定的子优化值,则结束运行,否则设置k的数值增加1,执行步骤(35)。
6.根据权利要求5所述的一种基于凸优化理论的抗噪声零样本图像分类方法,其特征在于,
步骤(4),使用交替方向乘子法对子优化问题变量进行更新迭代,直至各个子优化问题变量在两次连续迭代中的变化量小于定值,从而确定视觉-语义映射模型中的相关参量,获得最终的视觉-语义映射模型,通过以下步骤实现:
步骤(41),公式(6)的增广拉格朗日函数为:
Figure 500889DEST_PATH_IMAGE017
Figure 640884DEST_PATH_IMAGE018
Figure 594802DEST_PATH_IMAGE019
(7),
式中,P为潜在子空间到视觉特征的逆投影矩阵,Q为视觉特征到潜在子空间的投影矩阵,W为潜在子空间到类别语义属性的投影矩阵,B为视觉特征到类别语义属性的投影矩阵,M 1M 2为拉格朗日乘子,μ为惩罚参数,X为所有已见类训练集中的图片样本的矩阵,Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵,
Figure 871062DEST_PATH_IMAGE020
的每一列均为所有已见类的类别语义属性的平均值,<*>为内积运算,tr(*)为矩阵的迹运算,λ k =
Figure 166915DEST_PATH_IMAGE016
I为单位矩阵,β 1β 2为权系数,
Figure 279358DEST_PATH_IMAGE003
WF-范数,
Figure 256541DEST_PATH_IMAGE004
QF-范数;
步骤(42),固定PQWM 1M 2μ,更新视觉特征到类别语义属性的投影矩阵B
Figure 652888DEST_PATH_IMAGE021
(8),
步骤(43),采用拉格朗日乘子法求解公式(8),获得视觉特征到类别语义属性的投影矩阵B
Figure 322904DEST_PATH_IMAGE022
步骤(44),最小化公式(9),获得潜在子空间到视觉特征的逆投影矩阵P
Figure 171911DEST_PATH_IMAGE023
(9),
步骤(45),令
Figure 202053DEST_PATH_IMAGE024
,通过奇异值分解计算HX T Q=USV T U、SV分别为奇异值分解的矩阵得到P=UV T ;
步骤(46),最小化公式(10),获得视觉特征到潜在子空间的投影矩阵Q
Figure 452905DEST_PATH_IMAGE025
(10),
令公式(10)中Q的梯度为0,得到关于Q的Sylvester方程:
Figure 293822DEST_PATH_IMAGE026
(11)
其中,
Figure 630126DEST_PATH_IMAGE027
步骤(47),最小化公式(12),获得潜在子空间到类别语义属性的投影矩阵W
Figure 214691DEST_PATH_IMAGE028
(12)
令式(12)中W的梯度为0,得到:
Figure 336362DEST_PATH_IMAGE029
(13),
步骤(48),若P、QW在两次连续迭代中的变化量均分别小于定值,则结束运行,确定视觉-语义映射模型中的WQ,获得最终的视觉-语义映射模型,否则M 1的数值增加μX-PQ T X),M 2的数值增加μQW-B),惩罚参数μ更新为min(μ max ,ρμ),ρμ max 为设定的参数,进入步骤(43)。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202211078136.5A 2022-09-05 2022-09-05 一种基于凸优化理论的抗噪声零样本图像分类方法 Pending CN115147607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211078136.5A CN115147607A (zh) 2022-09-05 2022-09-05 一种基于凸优化理论的抗噪声零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211078136.5A CN115147607A (zh) 2022-09-05 2022-09-05 一种基于凸优化理论的抗噪声零样本图像分类方法

Publications (1)

Publication Number Publication Date
CN115147607A true CN115147607A (zh) 2022-10-04

Family

ID=83416605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211078136.5A Pending CN115147607A (zh) 2022-09-05 2022-09-05 一种基于凸优化理论的抗噪声零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN115147607A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN116051909A (zh) * 2023-03-06 2023-05-02 中国科学技术大学 一种直推式零次学习的未见类图片分类方法、设备及介质
CN117237748A (zh) * 2023-11-14 2023-12-15 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117333778A (zh) * 2023-12-01 2024-01-02 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334613A (zh) * 2019-06-19 2019-10-15 杭州电子科技大学 一种鲁棒的漏油海域识别方法
CN112487193A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自编码器的零样本图片分类方法
CN114821196A (zh) * 2022-06-08 2022-07-29 安徽大学 零样本图像识别方法及其识别装置、介质与计算机终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334613A (zh) * 2019-06-19 2019-10-15 杭州电子科技大学 一种鲁棒的漏油海域识别方法
CN112487193A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自编码器的零样本图片分类方法
CN114821196A (zh) * 2022-06-08 2022-07-29 安徽大学 零样本图像识别方法及其识别装置、介质与计算机终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIN MENG等: ""Zero-Shot Learning via Robust Latent Representation and Manifold Regularization"", 《ARXIV》 *
QIAN WANG等: ""Concave-Convex Programming for Ramp Loss-Based MaximumMargin and Minimum Volume Twin Spheres Machine"", 《SPRINGER》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法
CN116051909A (zh) * 2023-03-06 2023-05-02 中国科学技术大学 一种直推式零次学习的未见类图片分类方法、设备及介质
CN117237748A (zh) * 2023-11-14 2023-12-15 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117237748B (zh) * 2023-11-14 2024-02-23 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117333778A (zh) * 2023-12-01 2024-01-02 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法
CN117333778B (zh) * 2023-12-01 2024-03-12 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法

Similar Documents

Publication Publication Date Title
CN112115995B (zh) 一种基于半监督学习的图像多标签分类方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN107341510B (zh) 基于稀疏正交的双图非负矩阵分解的图像聚类方法
CN107832747B (zh) 一种基于低秩字典学习算法的人脸识别方法
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
CN108446766A (zh) 一种快速训练堆栈自编码深度神经网络的方法
CN107862680B (zh) 一种基于相关滤波器的目标跟踪优化方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
Dixit et al. Object based scene representations using fisher scores of local subspace projections
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Luhman et al. Diffusion models for handwriting generation
CN112836007B (zh) 一种基于语境化注意力网络的关系元学习方法
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
Liu et al. Multi-digit Recognition with Convolutional Neural Network and Long Short-term Memory
CN116955138A (zh) 一种验收方法、装置、设备及存储介质
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
CN114330535A (zh) 一种基于支持向量正则化字典对学习的模式分类方法
CN114692715A (zh) 一种样本标注方法及装置
CN114359291A (zh) 一种训练实例分割模型的方法以及实例分割方法
CN113421314A (zh) 一种基于生成对抗网络的多尺度双模态文本生成图像方法
CN117058437B (zh) 一种基于知识蒸馏的花卉分类方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221004

RJ01 Rejection of invention patent application after publication