CN115147607A

CN115147607A - 一种基于凸优化理论的抗噪声零样本图像分类方法

Info

Publication number: CN115147607A
Application number: CN202211078136.5A
Authority: CN
Inventors: 汤龙; 赵攀; 潘志庚
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-10-04

Abstract

本发明公开基于凸优化理论的抗噪声零样本图像分类方法，提取待分类图片的视觉特征，输入预先训练获得的视觉‑语义映射模型，预测输出待分类图片的类别语义属性；利用图模型降噪算法，将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐，获得最终的待分类图片的类别语义属性。预先训练获得视觉‑语义映射模型：构建视觉‑语义映射模型表达式；利用类别语义属性空间相似度和噪声鲁棒损失函数，建立鲁棒优化问题；使用凸凹迭代方法将求解鲁棒优化问题转化为求解一系列子优化问题；使用交替方向乘子法对子优化问题变量进行更新迭代，确定视觉‑语义映射模型中的相关参量，从而获得最终的视觉‑语义映射模型。

Description

一种基于凸优化理论的抗噪声零样本图像分类方法

技术领域

本发明涉及一种基于凸优化理论的抗噪声零样本图像分类方法，属于图像分类技术领域。

背景技术

对于图片识别来说，传统的模式识别方法需要使用大量的良好标记图片进行训练，以保证模型的泛化性能，但在许多现实场景中对细粒度图片样本进行标记往往需要专业的领域知识，因此，为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题，零样本学习（Zero Shot Learning，简称ZSL）得到越来越多的关注。

ZSL试图通过从已见类（有现成样本的类别）的标记样本中获取迁移知识，构建能够识别未见类（没有现成样本的类别，即零样本类）样本的分类模型。

2017年发表的Prototypical networks for few-shot learning[J]. Advancesin neural information processing systems, 2017, 30中提出了原型网络模型，原型网络将类别中的各样本映射到一个空间中，将每个类别的均值作为类别的原型。利用欧几里得距离作为度量，最小化每个类别与自身原型的距离，同时最大化其与其它类别原型的距离。作者将改模型应用到零样本学习中，取得了不错的成果。

2019年发表的Zero-shot learning via robust latent representation andmanifold regularization[J]. IEEE Transactions on Image Processing, 2018, 28(4): 1824-1836中提出了一个框架来同时学习潜在的特征子空间和跨模态嵌入模型，以将视觉特征与其语义表示联系起来。利用余弦相似度作为度量，使每个样本的语义输出与自身类别语义属性的相似度尽可能大，与其他类别语义属性的相似度尽可能小，并提出了一种基于图模型降噪的新型流形对齐策略，来提高模型对未见类样本的预测精度。使用交替方向乘子法求解，极大地提高了训练效率。

现有的零样本图像分类模型大多假设训练样本均拥有正确标签，鲜有针对标记噪声数据处理方面的研究。然而，如果某些已见类样本的类别标记错误，产生标记噪声，往往会产生较大的损失值，倘若直接最小化这些样本的损失值，会导致训练得到的模型产生偏差，降低其泛化性能。

发明内容

本发明所要解决的技术问题是克服现有技术中由于现有零样本数据标签多为专家手动标记或从词库中自动提取，其不可避免的产生标记噪声，尤其在一些样本数据不足且精度相当重要的军事、医疗和金融领域，标记噪声的存在会对结果产生无法估计的负面影响的缺陷，本发明提供基于凸优化理论的抗噪声零样本图像分类方法，降低标记噪声带来的误差，有效提高了视觉-语义映射模型的识别精度。

为达到上述目的，本发明提供一种基于凸优化理论的抗噪声零样本图像分类方法，包括：

获取待分类图片；

提取待分类图片的视觉特征；

将待分类图片的视觉特征输入预先训练获得的视觉-语义映射模型，输出待分类图片的类别语义属性；

利用图模型降噪算法，将待分类图片的视觉特征空间和预测输出待分类图片的类别语义属性空间进行流形对齐，获得最终的待分类图片的类别语义属性。

优先地，预先训练获得视觉-语义映射模型，通过以下步骤实现：

步骤(1)，获取已见类训练集，已见类训练集包括图片样本的视觉特征和图片样本的类别语义属性；

步骤(2)，构建视觉-语义映射模型，将图片样本的视觉特征作为视觉-语义映射模型的输入，将图片样本的类别语义属性作为视觉-语义映射模型的输出；

利用类别语义属性空间相似度和噪声鲁棒损失函数，建立鲁棒优化问题；

步骤(3)，使用凸凹迭代方法，将求解鲁棒优化问题转化为求解一系列子优化问题，直至连续两次子优化问题的相似度小于设定的子优化值；

步骤(4)，使用交替方向乘子法对子优化问题变量进行更新迭代，直至各个子优化问题变量在两次连续迭代中的变化量小于定值，确定视觉-语义映射模型中的相关参量，从而获得最终的视觉-语义映射模型。

优先地，步骤(5)，获取未见类测试集；

将未见类测试集输入最终的视觉-语义映射模型，获得未见类测试集的预测类别语义属性；

利用图模型降噪算法，将未见类测试集的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐，获得未见类测试集最终的类别语义属性；

基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性，确定未见类测试集中每个图片样本最终的预测类别；

根据未见类测试集中图片样本的真实类别，统计未见类测试集中图片样本最终的预测类别的正确数量，并计算未见类测试集的类别预测准确率；

若未见类测试集的类别预测准确率大于设定的未见类阈值，则判定最终的视觉-语义映射模型合格。

优先地，步骤(2)，构建视觉-语义映射模型，通过以下步骤实现：

视觉-语义映射模型的表达式为：

，

式中，y为图片样本的类别语义属性，W为潜在子空间到类别语义属性的投影矩阵，x为图片样本的视觉特征，Q为视觉特征到潜在子空间的投影矩阵，T为转置；

步骤(2)，利用类别语义属性空间相似度和噪声鲁棒损失函数，建立鲁棒优化问题，通过以下步骤实现：

建立类别语义属性空间的相似度模型，最大化图片样本的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度；

在视觉-语义映射模型中添加一个潜在子空间，建立优化问题：

（1）

式中，P为潜在子空间到视觉特征的逆投影矩阵，Q为视觉特征到潜在子空间的投影矩阵，W为潜在子空间到类别语义属性的投影矩阵，B为视觉特征到类别语义属性的投影矩阵，n为已见类训练集中的图片样本数量，cs为已见类训练集中已见类的数量，x _i为已见类训练集中第i个图片样本的视觉特征，y _zi为x _i所对应类别的类别语义属性，y _j为第j个已见类的类别语义属性，β ₁和β ₂为权系数，

为W的F-范数，

为Q的F-范数，T为转置，I为单位矩阵，X为已见类训练集中所有图片样本的视觉特征矩阵；

噪声鲁棒损失函数采用Ramp型损失函数，Ramp型损失函数的表达式为：

（2），

（3）；

式中，u _i为因变量，t为设定的参数，L（u _i）为Ramp型损失函数计算的损失值；

采用Ramp型损失函数更新公式（1）中的优化问题，得到鲁棒优化问题，鲁棒优化问题的表达式为：

，

（4）。

优先地，步骤(3)，使用凸凹迭代方法，将求解鲁棒优化问题转化为求解一系列子优化问题，直至连续两次子优化问题的相似度小于设定的子优化值，通过以下步骤实现：

步骤(31)，将Ramp型损失函数改写为一个凸函数和一个凹函数的和的形式：

将L（u _i）分解为L ₁（u _i）+L ₂（u _i），其中L ₁（u _i）=u _i，

；

步骤(32)，采用凸凹迭代方法将求解公式（4）转化为求解一系列子优化问题，第k+1个子优化问题的表达式为：

（5），

式中，

是L ₂（u _i）在

处的梯度；

步骤(33)，第k+1个子优化问题的表达式进一步具体化为：

（6），

式中，tr（*）为矩阵的迹运算，Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵；

的每一列均为所有已见类的类别语义属性的平均值，

的列数为已见类训练集中的图片样本数量，λ ^k=

；

步骤(34)，设k=0和λ ⁰=0；

步骤(35)，求解公式（6）；

步骤(36)，若λ ^k的相似度和λ ^k+1的相似度均小于设定的子优化值，则结束运行，否则设置k的数值增加1，执行步骤（35）。

优先地，步骤(4)，使用交替方向乘子法对子优化问题变量进行更新迭代，直至各个子优化问题变量在两次连续迭代中的变化量小于定值，从而确定视觉-语义映射模型中的相关参量，获得最终的视觉-语义映射模型，通过以下步骤实现：

步骤(41)，公式（6）的增广拉格朗日函数为：

（7），

式中，P为潜在子空间到视觉特征的逆投影矩阵，Q为视觉特征到潜在子空间的投影矩阵，W为潜在子空间到类别语义属性的投影矩阵，B为视觉特征到类别语义属性的投影矩阵，M ₁和M ₂为拉格朗日乘子，μ为惩罚参数，X为所有已见类训练集中的图片样本的矩阵，Y为所有已见类训练集中的图片样本对应的类别语义属性的矩阵，

的每一列均为所有已见类的类别语义属性的平均值，<*>为内积运算，tr（*）为矩阵的迹运算，λ ^k=

，I为单位矩阵，β ₁和β ₂为权系数，

为W的F-范数，

为Q的F-范数；

步骤(42)，固定P、Q、W、M ₁、M ₂和μ，更新视觉特征到类别语义属性的投影矩阵B：

（8），

步骤(43)，采用拉格朗日乘子法求解公式（8），获得视觉特征到类别语义属性的投影矩阵B：

；

步骤(44)，最小化公式（9），获得潜在子空间到视觉特征的逆投影矩阵P：

（9），

步骤(45)，令

，通过奇异值分解计算HX ^T Q=USV ^T，U、S和V分别为奇异值分解的矩阵，得到P=UV^T;

步骤(46)，最小化公式（10），获得视觉特征到潜在子空间的投影矩阵Q：

（10），

令公式（10）中Q的梯度为0，得到关于Q的Sylvester方程：

（11）

其中，

；

步骤(47)，最小化公式（12），获得潜在子空间到类别语义属性的投影矩阵W：

（12）

令式（12）中W的梯度为0，得到：

（13），

步骤(48)，若P、Q和W在两次连续迭代中的变化量均分别小于定值，则结束运行，确定视觉-语义映射模型中的W和Q，获得最终的视觉-语义映射模型，否则M ₁的数值增加μ（X-PQ ^T X），M ₂的数值增加μ（QW-B），惩罚参数μ更新为min(μ _max ，ρμ)，ρ和μ _max为设定的参数，进入步骤（43）。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明所达到的有益效果：

本发明提出一种基于凸优化方法的抗噪声零样本图像识别方法，针对零样本图像识别中的标记噪声问题提出一种有效的解决途径，通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法，降低已见类的图片样本的标记噪声样本带来的负面影响；

本发明在AWA数据集的已见类图片样本中加入一定比例的标记噪声，对比现有方法，噪声标记比例越高本方法在识别精度上的优势越明显；

特别地，在10%噪声标记时，本方法未见类测试精度比原方法高4.2%，在20%噪声标记时，精度差距高达12.1%。

附图说明

图1是本发明的流程图；

图2为本发明Ramp型损失函数的折线图；

图3为本发明Ramp型损失函数的分解函数1的折线图；

图4为本发明Ramp型损失函数的分解函数2的折线图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

本发明提供一种基于凸优化理论的抗噪声零样本图像分类方法，包括：

获取待分类图片；

提取待分类图片的视觉特征；

进一步地，本实施例中预先训练获得视觉-语义映射模型，通过以下步骤实现：

进一步地，本实施例中步骤(5)，获取未见类测试集；

进一步地，本实施例中步骤(2)，构建视觉-语义映射模型，通过以下步骤实现：

视觉-语义映射模型的表达式为：

，

（1）

为W的F-范数，

（2），

（3）；

，

（4）。

进一步地，本实施例中步骤(3)，使用凸凹迭代方法，将求解鲁棒优化问题转化为求解一系列子优化问题，直至连续两次子优化问题的相似度小于设定的子优化值，通过以下步骤实现：

；

（5），

式中，

是L ₂（u _i）在

处的梯度；

步骤(33)，第k+1个子优化问题的表达式进一步具体化为：

（6），

的每一列均为所有已见类的类别语义属性的平均值，

的列数为已见类训练集中的图片样本数量，λ ^k=

；

步骤(34)，设k=0和λ ⁰=0；

步骤(35)，求解公式（6）；

进一步地，本实施例中步骤(4)，使用交替方向乘子法对子优化问题变量进行更新迭代，直至各个子优化问题变量在两次连续迭代中的变化量小于定值，从而确定视觉-语义映射模型中的相关参量，获得最终的视觉-语义映射模型，通过以下步骤实现：

步骤(41)，公式（6）的增广拉格朗日函数为：

（7），

，I为单位矩阵，β ₁和β ₂为权系数，

为W的F-范数，

为Q的F-范数；

（8），

；

（9），

步骤(45)，令

（10），

令公式（10）中Q的梯度为0，得到关于Q的Sylvester方程：

（11）

其中，

；

（12）

令式（12）中W的梯度为0，得到：

（13），

以AWA数据集为例，该数据集包含50个类别，共30485张图片样本，其中每个类别至少92张图片样本，每个类别都对应一个85维的类别语义属性向量。本发明将50个类别中的40个类别作为已见类，10个类别作为未见类。在已见类的图片样本中随机取19852个图片样本组成已见类训练集，在未见类的图片样本中随机取5685个图片样本组成未见类测试集。

获取已见类训练集的视觉特征和未见类测试集的视觉特征，通过以下步骤实现：

采用ResNet101模型对已见类训练集和未见类测试集中的图片样本进行视觉特征提取，获得视觉特征；

视觉特征提取后视觉特征的维度为2048。

实施例二

本发明提出一种基于凸优化理论的零样本图像分类方法，针对零样本分类中出现的标记噪声问题，其主要思想是引入CCCP更新框架来解决损失函数非凸问题，并使用ADMM方法高效更新，通过加入Ramp型损失函数降低异常噪声对模型影响，增强其泛化能力。通过使用基于图模型降噪的流形对齐方法，提升了本发明算法对未见类预测的精度。本发明较好地解决了零样本学习中的标记噪声问题，对比已有方法，提高了在带噪声标记数据集上的识别精度。

如图1所示，本发明利用一个语义嵌入空间来嵌入已见类视觉向量、未类别视觉向量、已见类标签和未类别标签。语义嵌入空间中的语义向量都是预先设定的辅助信息，既可以是手动定义的属性向量，也可以是从辅助文本中自动提取的词向量。

获取已见类训练集的视觉特征，通过以下步骤实现：

采用ResNet101模型对已见类训练集中的图片样本进行视觉特征提取，获得已见类训练集的视觉特征；提取后视觉特征的维度为2048。

获取未见类测试集的视觉特征，通过以下步骤实现：

采用ResNet101模型对未见类测试集中的图片样本进行视觉特征提取，获得未见类测试集的视觉特征；提取后视觉特征的维度为2048。

在本发明中，采用人为加入标记噪声来模拟现实中出现的噪声，通过加入不同数量的标记噪声来模拟不同场景。为了不失一般性，本发明采用Cosine相似度作为类别语义属性空间的度量标准。对于一个已见类的图片样本，加入噪声的方法是：

首先计算已见类的图片样本的原有标注类别的类别语义属性与其他已见类的类别语义属性之间的相似度，然后，在其他已见类中找到相似度最小的已见类，并用相似度最小的已见类取代原有标注类别。在这种极端噪声环境下更能凸显出本发明的抗噪声性能。

图2为本发明Ramp型损失函数的折线图，图3为本发明Ramp型损失函数的分解函数1的折线图，图4为本发明Ramp型损失函数的分解函数2的折线图。本发明对AWA数据集加入不同比例的最大噪声进行实验，实验结果与不使用抗噪声技术的零样本学习方法（Zero-shot learning via robust latent representation and manifold regularization[J]. IEEE Transactions on Image Processing, 2018, 28(4): 1824-1836.)进行对比，实验结果如表1所示:

表1：未见类测试集的实验精度对比表

从实验结果可以看出，本发明所提出的抗噪声零样本图像分类方法显著提高了噪声数据集分类任务的精度。从表1中可以发现，在无噪声样本上，本方法提升有2%，但随着噪声的增多，本方法优势凸显，抗噪声效果更好。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。